找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3824

积分

0

好友

540

主题
发表于 16 小时前 | 查看: 1| 回复: 0

数据时间:2026-03-03(ARC Prize 官方 leaderboard)

许多评测热衷于让模型参加考试、撰写文章或充当搜索助手。久而久之,评测结果越来越像一场“表达能力竞赛”:输出更长、逻辑链条写得更为华丽,往往就能获得更高评价。

然而,ARC Prize 的 ARC-AGI 榜单反其道而行,做了一件看似不讨喜却极具价值的事:它尽可能剥离模型的知识储备与语言技巧,将目光聚焦于一个更基础的问题——模型在面对前所未见的规则时,能否快速学习并正确应用,并且,这个过程中还要衡量成本。

如果我们把“AI能干事”理解为:任务格式变化、规则调整、输入输出方式改变后,系统依然能够稳定交付结果,那么 ARC-AGI 这类基准测试则提供了一个更接近现实需求的衡量标尺。它不考察你背下了多少百科全书,而是在测试你是否能像人类一样,从寥寥数个示例中领悟规则并实现迁移。

ARC Prize 是什么组织?这张榜单在测什么

ARC Prize Foundation 是一个非营利组织,主要致力于两项工作:维护 ARC-AGI 系列基准测试,并运营一个持续更新的排行榜。它在测试政策中表述得非常直白:这些基准旨在衡量 AI 能力的进展,而非宣布“AGI 已经到来或尚未到来”。

其方法论也十分明确:尽可能公开数据与工具,同时保留“半私有/全私有”评测集以降低数据泄漏与模型过拟合风险;此外还通过竞赛形式在约束环境下进行验证。之所以采取如此复杂的措施,原因在于,一旦评测集完全公开并被反复刷榜,模型与方法便会开始“适配题库”,最终测出的不再是能力本身,而是对特定题库的工程优化能力。

ARC-AGI-1 与 ARC-AGI-2:从“表现聪明”到“兼顾适应与效率”

ARC-AGI 是由 François Chollet 在 2019 年提出的一套“抽象与推理”任务体系。其最常见的直观形态是网格题:输入是一张用 0–9 表示颜色的方格图,系统会看到少量训练样例(输入与输出配对),要求从样例中归纳出隐含规则,并对新的测试输入生成正确的输出。

ARC-AGI-1 抽象推理任务示例

ARC-AGI-1 是最初的版本,后来被 ARC Prize 作为竞赛和长期基准延续下来。它的定位是考察机器的一般性归纳、抽象、推理与泛化能力——许多人将其视为衡量“流体智力”的代表性测试。

ARC-AGI-2 则是升级版本。ARC Prize 在排行榜的说明中明确了它的方向:系统需要同时展现出高适应性高效率。这句话的现实含义是,并非“耗费巨额推理预算磨出答案”就能算数,而是要以可承受的计算资源,学会陌生规则并稳定地做出正确判断。

此外,ARC-AGI-2 的开源仓库给出了详细的数据结构信息:包含 1000 个公开训练任务、120 个公开评测任务;同时还有半私有与全私有测试集(不在仓库中),用于降低数据泄漏概率,并使难度校准到与公开评测的人类表现相当。

ARC-AGI 如何判定对错:不奖励漂亮话,只认结果

在 ARC-AGI-2 的定义中,“做对一道题”并非写出一段看似合理的解释,而是输出的网格必须与标准答案完全匹配。官方仓库对成功判据的关键点包括:

  • 每个任务由训练集(示例输入/输出对)与测试集(测试输入)组成;
  • 必须对该任务的所有测试输入都生成完全正确的输出,才算“解决该任务”;
  • 每个测试输入允许进行 2 次尝试(此规则对人类与 AI 统一)。

这种判据天然偏向“可验证的交付”:结果非对即错。它不会因为模型输出了冗长且美观的推理链条而给予额外分数。

为何这张榜单更贴近“能否干活”:成本成为显性指标

ARC Prize 排行榜的一个关键设计在于:除了展示分数,还同步公布单任务成本。它将“性能-成本”关系以散点图形式呈现:不仅要做对,还要在合理的资源消耗下做对。

在同一张榜单上,你可以看到:

  • Base LLM(基座模型):单次推理所展现的原始能力;
  • CoT(思维链):同一模型在不同“思考档位”下的表现(通常思考越深入,成本越高);
  • Refinement / Custom(精炼/定制系统):更偏向系统工程与专用求解器的方案。

这也意味着,如果一个系统需要极其昂贵的推理预算才能接近高分,那么它更像一种“实验室能力展示”;而如果一个系统能在很低的成本下取得不错的分数,则更接近于“可规模化的实用能力”。

全球顶尖水平:ARC-AGI-2 已出现得分70%-80%+的机器系统

首先看“天花板”:人类评审小组在 ARC-AGI-2 上的得分为 100%。

再看机器系统:榜单顶部的模型/系统已经将 ARC-AGI-2 的分数推高至 70%-80%+ 的区间。以下是按官方排行榜表格顺序截取的前五名(用于建立对全球水平的直观认识):

名次(ARC-AGI-2) 系统 机构/作者 ARC-AGI-2 Cost/Task
1 Human Panel Human 100.0% $17.00
2 Gemini 3 Deep Think (2/26) Google 84.6% $13.62
3 Gemini 3.1 Pro (Preview) Google 77.1% $0.962
4 GPT-5.2 (Refine.) Johan Land 72.9% $38.99
5 Claude Opus 4.6 (120K, High) Anthropic 69.2% $3.47

同一列表中,既能看到 80%+ 的高分结果,也能观察到成本从每任务不足 1 美元到几十美元的巨大差异。ARC-AGI-2 的现实意义在此凸显:它不允许“只谈能力,不论代价”。

中国模型在 ARC-AGI-2 上的位置:最高11.8%,多数处于1%-5%

将焦点拉回到中国模型。以下为本文撰写时,从 ARC Prize 官方排行榜中汇总的所有中国相关机构条目。名次按官方表格自上而下排列;官方更新后排名可能发生变化。

机构 模型/系统(官方名称) 类型 ARC-AGI-1 ARC-AGI-2 Cost/Task ARC-AGI-2 名次(约)
Moonshot AI Kimi K2.5 CoT 65.3% 11.8% $0.280 32
Minimax Minimax M2.5 CoT 63.7% 4.9% $0.170 43
Z.ai GLM-5 CoT 44.7% 4.9% $0.270 43
Deepseek Deepseek V3.2 Base LLM 57.0% 4.0% $0.120 47
Alibaba Qwen3-235b-a22b Instruct (25/07) Base LLM 11.0% 1.3% $0.004 70
Deepseek Deepseek R1 CoT 15.8% 1.3% $0.080 70
Deepseek Deepseek R1 (05/28) CoT 21.2% 1.1% $0.053 76

如果仅看“最高值”,当前中国上榜条目中 ARC-AGI-2 的最佳成绩是 11.8%(Kimi K2.5);其余大多集中在 1%—5% 的个位数区间。与之形成对比的是,全球头部系统已处于 70%—80%+ 的水平。

更值得注意的是成本侧:中国模型的整体成本并不高,甚至出现了极低的成本(例如 Qwen3-235b-a22b Instruct 标注为 $0.004/任务)。这里显现的落差似乎并非源于“算力堆砌不足”,而更像是模型在这种特定规则迁移任务上的能力结构尚未对齐

ARC-AGI-2 人类与模型得分对比条形图

榜单投射的现实:差距不在“表达”,而在“迁移”

ARC-AGI-2 的任务形式决定了它对“语言表达能力”几乎不予理睬:最终只判断网格输出是否正确。因此,它对规则迁移能力的考察,比许多传统榜单更为直接和严苛。

在这种测量方式下,当前中国上榜模型整体呈现出三个关键信息:

  • 在成本方面并不处于劣势,甚至存在极低成本条目;
  • 在 ARC-AGI-1 上的分数尚可,但到了 ARC-AGI-2 普遍骤降至个位数甚至 1% 左右;
  • 与全球头部 70%—80%+ 的分数区间相比,存在着数量级上的明显差距。

从“实际干活”的角度来理解,这类差距最容易出现在何种场景?当规则全新、格式陌生、输入输出必须严格结构化且可验证时——例如处理一种新型表单、遵循一套新流程、或在全新约束下执行批处理任务。一旦任务无法依靠“说得像模像样”来蒙混过关,模型底层的抽象与迁移能力便会经受放大镜般的检验。这不仅仅是模型规模或数据量的问题,更涉及到核心算法与推理架构的创新。

这张榜单提醒我们,在追求模型“能说会道”的同时,或许更需要关注其解决未知、结构化问题的硬核能力。对于关心技术前沿的开发者而言,持续追踪此类基准,参与相关的开源实战与讨论,是理解人工智能发展真实脉搏的重要途径。欢迎在云栈社区继续交流相关见解。

信息来源




上一篇:瑞幸咖啡的两难:涨价丢客户,保利润就得放缓扩张
下一篇:米哈游入局3D MOBA:基于UE5引擎的PC/主机端游戏机会与挑战分析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-4 21:07 , Processed in 0.510280 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表