找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2814

积分

0

好友

376

主题
发表于 1 小时前 | 查看: 2| 回复: 0

蓝白手绘风格的技术架构示意图,展示了服务器、数据库、云服务、API网关与微服务之间的数据流

一个仅有7.6万参数的模型,在衡量“真正智能”的测试上,分数居然是GPT-4.5的两倍。

这不是假设,而是2025年ARC Prize竞赛中的真实结果。提出这项测试的,正是Keras框架的创造者François Chollet。这位刚从Google离职、创办了自己AGI实验室的专家,正带领团队走上一条与主流行业截然不同的探索之路。

五万倍的投入,一成的回报

在YC的AI Startup School上,Chollet展示了一组引人深思的数据。

从GPT-2演进到GPT-4.5,大型语言模型的基座规模膨胀了大约50,000倍。参数量、训练数据量、算力投入,都经历了全方位的指数级增长。在各种传统的基准测试(benchmark)中,成绩一路高歌猛进,无论是代码生成、数学推理还是知识问答,几乎所有能叫得出名字的“考试”都在被大模型不断刷新纪录。

然而,当Chollet拿出ARC测试时,情况发生了逆转。

ARC(抽象与推理语料库,Abstraction and Reasoning Corpus)是他精心设计的一套评估体系。它不考核记忆能力,也不测试知识储备,只专注于一件事:面对一个从未见过的、全新的问题时,模型能否当场构思出解法。这在心理学和认知科学中,常被称为流体智能

结果令人惊讶:50,000倍的规模扩张,在ARC-1测试集上,只换来了从近乎0%到大约10%的性能提升。

过去四年,整个AI行业投入了数千亿美元,构建了人类历史上规模空前的软件系统。这些系统在几乎所有传统benchmark上的表现都已超越人类。但在测量“真正智能”的这项考试面前,它们的得分仅为10%。作为对比,人类在同一测试中的平均得分超过85%。

问题或许不在于算力是否充足,而在于努力的方向。不过,一类新方法的出现,为这个故事带来了意想不到的转折。

记忆大师与真正的思考者

Chollet的核心论断可以归结为一句话:智能是一个动态的过程,而非一项静态的技能。

展开来说,当我们评价一个人“聪明”时,通常不是指他记住了多少现成的答案,而是指他面对陌生挑战时,能否快速推导出解决方案的能力。一个做了一万道模拟题的高考生,与一个能针对未知问题自行推导出解法的人,体现的是两种截然不同的能力层级。

过去四年,大语言模型所做的工作,本质上更接近于前者。它们将互联网上近乎全部的文本数据压缩进参数中,擅长在已经“见过”的模式上进行极其精准的检索与重组。Chollet将这种能力称为 “固化的行为程序” 。它们是自动化执行的大师,但尚不是能创造新方法的发明家。

这正好解释了为何传统benchmark成绩与ARC成绩会出现严重脱节。传统测试衡量的是模型在 “已见过数据分布” 上的表现,而这恰恰是单纯扩大规模(Scaling)能够显著改善的方面。数据越多,模型越大,“见过”的模式就越丰富,考试分数自然水涨船高。而ARC测试的是处理 “前所未见” 事物的能力。每道题都是全新设计的,与训练数据没有任何重合。这就好比让一个背了十年真题的考生,突然面对一场全部是原创题的考试,此时知识储备不再奏效,唯有现场的思考与推理能力才能破局。

Chollet将这一现象提炼成一条法则:你优化什么,就只能得到什么,并且往往以牺牲其他能力为代价。

过去四年,整个行业优化的是模型在已知数据分布上的表现。得到的回报是史上最强大的记忆与检索引擎,而付出的代价,则可能是真正的、面向未知的学习与泛化能力。

这一现象在更广的语境下也不难理解。我们从小就听过“高分低能”的说法,但从未有人拿出如此硬核的数据来量化它。50,000倍的“刷题投入”,仅换来10%的“真实能力”提升。只不过这一次,考生变成了人工智能。

既然单纯堆砌规模不是终极答案,那么出路究竟在哪里?

7万参数模型的逆袭

2024年,AI领域悄然发生了一次范式转换。

它没有GPT-4发布时的全网刷屏,也没有“iPhone时刻”般的宏大宣言,但其潜在重要性可能不亚于任何热闹的大事件。这次转换的核心是 “测试时自适应” ,即让模型在推理(测试)阶段进行学习,而不是将所有学习过程都压缩在训练阶段完成。

效果立竿见影。例如,OpenAI的o3模型采用了测试时计算策略,在ARC-1上的得分跃升至75%-87%。相较于基座模型约10%的水平,这无疑是质的飞跃。

但更令人震惊的,是那些“小个子”模型的表现。

在2025年ARC Prize的获奖论文中,有一个名为TRM的方法。它仅有700万参数,大约是GPT-4的十万分之一,却在ARC-1上取得了45%的得分。其秘诀并不复杂:通过递归式地改进自身的预测,在每一轮推理中都基于前一轮的结果修正错误。所有实质性的“学习”都发生在测试时刻。

还有更极端的案例。CompressARC模型,参数量仅为7.6万(注意单位是“万”而非“亿”),在ARC-1评估集上达到了20%的得分。它从零开始(随机初始化),没有经过预训练,一个模型只针对一个目标任务进行训练,不依赖搜索或分支策略,纯粹依靠梯度下降。

把数字放在一起看:一个不到十万参数的模型,在流体智能测试上的表现,是某些万亿参数级模型的两倍。这已经不是“小模型表现尚可”的故事了,它清晰地指向一个结论:研究方向与架构设计,比单纯的规模扩张要重要得多。

在更难的版本ARC-2上,这种差距更为明显。2025年的数据显示:人类专家组能达到接近100%的得分,而当时最强的商业模型Opus 4.5(开启思考模式)仅为37.6%。如今,包括OpenAI、Anthropic、Google DeepMind、xAI在内的主要AI实验室,都已将ARC纳入其核心模型评估体系。这个曾一度被视为“学术圈自嗨”的测试,正在成为检验AI“真实智能”的试金石。

小模型通过 “学会如何学习” 的机制击败了庞然大物般的大模型。但这仅仅是技术路线的故事。如果这条道路是正确的,那么通往通用人工智能的最终形态可能会是什么样子?

构建一台持续“进化”的机器

2024年11月,Chollet离开了他工作近十年的Google。两个月后,他与Zapier联合创始人Mike Knoop共同创立了Ndea实验室,一个致力于探索程序合成路径的AGI研究机构。

Ndea的路线图可以用一句话概括:不构建一个知晓所有答案的静态系统,而是打造一个能够学会如何寻找答案的动态系统。

具体而言,他们正在构建一个“元学习器”,一个能在解题过程中不断积累和复用抽象子程序的系统。当遇到全新问题时,它不是从一个庞大的记忆库中检索最相似的答案,而是从一个持续增长的 “思维工具箱” 中,组合并创造出全新的解法。

Chollet称之为 “万花筒假说” :世界的复杂模式可以被分解为有限数量的、可重用的抽象组件,而这些组件的组合方式则是无限的。就像自然语言,用有限的词汇能构造出无限的句子。他的目标不是编纂一部更厚的词典,而是打造一个更强大的语法生成引擎。

这与主流大模型的发展逻辑存在着根本性差异。大模型的逻辑是 “将世界的知识全部编码进静态参数中”;而Chollet的逻辑则是 “教会系统如何从少量样本中自行发现规律” 。前者像是在编纂一本终极百科全书,后者则致力于模拟一个会成长的大脑。

这条道路充满不确定性。程序合成在过去几十年里一直是人工智能领域最棘手的挑战之一。Chollet对此也直言不讳:“我们拥有一个微小但真实的机会取得突破。”

然而,2025年的竞赛数据给了他信心。ARC Prize 2025的核心主题是 “精细化循环” ,即通过反复迭代将一个初步程序优化成更好的程序。无论是采用自然语言进行进化搜索的方案,还是利用Python进行程序合成的方案,都在做同一件事:让系统在解决问题的过程中实现自我改进。这与Chollet五年前提出ARC测试时的预判完全吻合,只是如今有了扎实的数据作为支撑。

回到最初的问题:为什么一个7.6万参数的模型能够击败万亿参数的大模型?

答案并非因为它“更聪明”,而是因为它正在做一件大模型尚未充分开展的事情:即时学习。这不是训练阶段的大规模记忆,而是推理阶段的、针对具体问题的现场学习。面对一个前所未有的新问题,它不是在记忆库中翻找旧答案,而是当场发明一个新解法。

单纯依赖规模扩张的叙事不会立刻消失,毕竟有太多的资本、公司和职业生涯都押注在这条路径上。但2025年ARC数据所揭示的信号已经足够清晰:通往AGI的关键,可能并不在于谁拥有更多的GPU或更大的参数量,而隐藏在一个完全不同的问题域中——如何让机器真正地学会学习。关于深度学习范式的反思与数据挖掘本质的探讨,也因此在技术社区中引发了更广泛的思考。




上一篇:单月收入暴增60亿!Anthropic凭AI编码撬动市场,引发SaaS行业市值重估
下一篇:如何用网络安全思路降维打击特产电商?一个前CTFer的实战复盘
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-29 04:56 , Processed in 0.635678 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表