云栈社区»论坛 › 开发者广场「Dev Plaza」 › 深度解析：模型规模膨胀50000倍，为何通用智能仅提升10%？ ...

发回帖发新帖

3680 积分	0 好友	488 主题

发消息

深度解析：模型规模膨胀50000倍，为何通用智能仅提升10%？

发表于 2026-3-29 03:15:08 | 查看: 79| 回复: 0

蓝白手绘风格的技术架构示意图，展示了服务器、数据库、云服务、API网关与微服务之间的数据流

一个仅有7.6万参数的模型，在衡量“真正智能”的测试上，分数居然是GPT-4.5的两倍。

这不是假设，而是2025年ARC Prize竞赛中的真实结果。提出这项测试的，正是Keras框架的创造者François Chollet。这位刚从Google离职、创办了自己AGI实验室的专家，正带领团队走上一条与主流行业截然不同的探索之路。

五万倍的投入，一成的回报

在YC的AI Startup School上，Chollet展示了一组引人深思的数据。

从GPT-2演进到GPT-4.5，大型语言模型的基座规模膨胀了大约50,000倍。参数量、训练数据量、算力投入，都经历了全方位的指数级增长。在各种传统的基准测试（benchmark）中，成绩一路高歌猛进，无论是代码生成、数学推理还是知识问答，几乎所有能叫得出名字的“考试”都在被大模型不断刷新纪录。

然而，当Chollet拿出ARC测试时，情况发生了逆转。

ARC（抽象与推理语料库，Abstraction and Reasoning Corpus）是他精心设计的一套评估体系。它不考核记忆能力，也不测试知识储备，只专注于一件事：面对一个从未见过的、全新的问题时，模型能否当场构思出解法。这在心理学和认知科学中，常被称为流体智能。

结果令人惊讶：50，000倍的规模扩张，在ARC-1测试集上，只换来了从近乎0%到大约10%的性能提升。

过去四年，整个AI行业投入了数千亿美元，构建了人类历史上规模空前的软件系统。这些系统在几乎所有传统benchmark上的表现都已超越人类。但在测量“真正智能”的这项考试面前，它们的得分仅为10%。作为对比，人类在同一测试中的平均得分超过85%。

问题或许不在于算力是否充足，而在于努力的方向。不过，一类新方法的出现，为这个故事带来了意想不到的转折。

记忆大师与真正的思考者

Chollet的核心论断可以归结为一句话：智能是一个动态的过程，而非一项静态的技能。

展开来说，当我们评价一个人“聪明”时，通常不是指他记住了多少现成的答案，而是指他面对陌生挑战时，能否快速推导出解决方案的能力。一个做了一万道模拟题的高考生，与一个能针对未知问题自行推导出解法的人，体现的是两种截然不同的能力层级。

过去四年，大语言模型所做的工作，本质上更接近于前者。它们将互联网上近乎全部的文本数据压缩进参数中，擅长在已经“见过”的模式上进行极其精准的检索与重组。Chollet将这种能力称为 “固化的行为程序” 。它们是自动化执行的大师，但尚不是能创造新方法的发明家。

这正好解释了为何传统benchmark成绩与ARC成绩会出现严重脱节。传统测试衡量的是模型在 “已见过数据分布” 上的表现，而这恰恰是单纯扩大规模（Scaling）能够显著改善的方面。数据越多，模型越大，“见过”的模式就越丰富，考试分数自然水涨船高。而ARC测试的是处理 “前所未见” 事物的能力。每道题都是全新设计的，与训练数据没有任何重合。这就好比让一个背了十年真题的考生，突然面对一场全部是原创题的考试，此时知识储备不再奏效，唯有现场的思考与推理能力才能破局。

Chollet将这一现象提炼成一条法则：你优化什么，就只能得到什么，并且往往以牺牲其他能力为代价。

过去四年，整个行业优化的是模型在已知数据分布上的表现。得到的回报是史上最强大的记忆与检索引擎，而付出的代价，则可能是真正的、面向未知的学习与泛化能力。

这一现象在更广的语境下也不难理解。我们从小就听过“高分低能”的说法，但从未有人拿出如此硬核的数据来量化它。50，000倍的“刷题投入”，仅换来10%的“真实能力”提升。只不过这一次，考生变成了人工智能。

既然单纯堆砌规模不是终极答案，那么出路究竟在哪里？

7万参数模型的逆袭

2024年，AI领域悄然发生了一次范式转换。

它没有GPT-4发布时的全网刷屏，也没有“iPhone时刻”般的宏大宣言，但其潜在重要性可能不亚于任何热闹的大事件。这次转换的核心是 “测试时自适应” ，即让模型在推理（测试）阶段进行学习，而不是将所有学习过程都压缩在训练阶段完成。

效果立竿见影。例如，OpenAI的o3模型采用了测试时计算策略，在ARC-1上的得分跃升至75%-87%。相较于基座模型约10%的水平，这无疑是质的飞跃。

但更令人震惊的，是那些“小个子”模型的表现。

在2025年ARC Prize的获奖论文中，有一个名为TRM的方法。它仅有700万参数，大约是GPT-4的十万分之一，却在ARC-1上取得了45%的得分。其秘诀并不复杂：通过递归式地改进自身的预测，在每一轮推理中都基于前一轮的结果修正错误。所有实质性的“学习”都发生在测试时刻。

还有更极端的案例。CompressARC模型，参数量仅为7.6万（注意单位是“万”而非“亿”），在ARC-1评估集上达到了20%的得分。它从零开始（随机初始化），没有经过预训练，一个模型只针对一个目标任务进行训练，不依赖搜索或分支策略，纯粹依靠梯度下降。

把数字放在一起看：一个不到十万参数的模型，在流体智能测试上的表现，是某些万亿参数级模型的两倍。这已经不是“小模型表现尚可”的故事了，它清晰地指向一个结论：研究方向与架构设计，比单纯的规模扩张要重要得多。

在更难的版本ARC-2上，这种差距更为明显。2025年的数据显示：人类专家组能达到接近100%的得分，而当时最强的商业模型Opus 4.5（开启思考模式）仅为37.6%。如今，包括OpenAI、Anthropic、Google DeepMind、xAI在内的主要AI实验室，都已将ARC纳入其核心模型评估体系。这个曾一度被视为“学术圈自嗨”的测试，正在成为检验AI“真实智能”的试金石。

小模型通过 “学会如何学习” 的机制击败了庞然大物般的大模型。但这仅仅是技术路线的故事。如果这条道路是正确的，那么通往通用人工智能的最终形态可能会是什么样子？

构建一台持续“进化”的机器

2024年11月，Chollet离开了他工作近十年的Google。两个月后，他与Zapier联合创始人Mike Knoop共同创立了Ndea实验室，一个致力于探索程序合成路径的AGI研究机构。

Ndea的路线图可以用一句话概括：不构建一个知晓所有答案的静态系统，而是打造一个能够学会如何寻找答案的动态系统。

具体而言，他们正在构建一个“元学习器”，一个能在解题过程中不断积累和复用抽象子程序的系统。当遇到全新问题时，它不是从一个庞大的记忆库中检索最相似的答案，而是从一个持续增长的 “思维工具箱” 中，组合并创造出全新的解法。

Chollet称之为 “万花筒假说” ：世界的复杂模式可以被分解为有限数量的、可重用的抽象组件，而这些组件的组合方式则是无限的。就像自然语言，用有限的词汇能构造出无限的句子。他的目标不是编纂一部更厚的词典，而是打造一个更强大的语法生成引擎。

这与主流大模型的发展逻辑存在着根本性差异。大模型的逻辑是 “将世界的知识全部编码进静态参数中”；而Chollet的逻辑则是 “教会系统如何从少量样本中自行发现规律” 。前者像是在编纂一本终极百科全书，后者则致力于模拟一个会成长的大脑。

这条道路充满不确定性。程序合成在过去几十年里一直是人工智能领域最棘手的挑战之一。Chollet对此也直言不讳：“我们拥有一个微小但真实的机会取得突破。”

然而，2025年的竞赛数据给了他信心。ARC Prize 2025的核心主题是 “精细化循环” ，即通过反复迭代将一个初步程序优化成更好的程序。无论是采用自然语言进行进化搜索的方案，还是利用Python进行程序合成的方案，都在做同一件事：让系统在解决问题的过程中实现自我改进。这与Chollet五年前提出ARC测试时的预判完全吻合，只是如今有了扎实的数据作为支撑。

回到最初的问题：为什么一个7.6万参数的模型能够击败万亿参数的大模型？

答案并非因为它“更聪明”，而是因为它正在做一件大模型尚未充分开展的事情：即时学习。这不是训练阶段的大规模记忆，而是推理阶段的、针对具体问题的现场学习。面对一个前所未有的新问题，它不是在记忆库中翻找旧答案，而是当场发明一个新解法。

单纯依赖规模扩张的叙事不会立刻消失，毕竟有太多的资本、公司和职业生涯都押注在这条路径上。但2025年ARC数据所揭示的信号已经足够清晰：通往AGI的关键，可能并不在于谁拥有更多的GPU或更大的参数量，而隐藏在一个完全不同的问题域中——如何让机器真正地学会学习。关于深度学习范式的反思与数据挖掘本质的探讨，也因此在技术社区中引发了更广泛的思考。

上一篇：单月收入暴增60亿！Anthropic凭AI编码撬动市场，引发SaaS行业市值重估
下一篇：如何用网络安全思路降维打击特产电商？一个前CTFer的实战复盘

人工智能, 深度学习, 大语言模型, ARC测试, 模型可扩展性