5198 积分	0 好友	718 主题

发消息

聚焦ARC Prize榜单：当表达力不再加分，中国大模型硬核迁移能力现状分析

发表于 2026-3-4 04:45:51 | 查看: 72| 回复: 0

数据时间：2026-03-03（ARC Prize 官方 leaderboard）

许多评测热衷于让模型参加考试、撰写文章或充当搜索助手。久而久之，评测结果越来越像一场“表达能力竞赛”：输出更长、逻辑链条写得更为华丽，往往就能获得更高评价。

然而，ARC Prize 的 ARC-AGI 榜单反其道而行，做了一件看似不讨喜却极具价值的事：它尽可能剥离模型的知识储备与语言技巧，将目光聚焦于一个更基础的问题——模型在面对前所未见的规则时，能否快速学习并正确应用，并且，这个过程中还要衡量成本。

如果我们把“AI能干事”理解为：任务格式变化、规则调整、输入输出方式改变后，系统依然能够稳定交付结果，那么 ARC-AGI 这类基准测试则提供了一个更接近现实需求的衡量标尺。它不考察你背下了多少百科全书，而是在测试你是否能像人类一样，从寥寥数个示例中领悟规则并实现迁移。

ARC Prize 是什么组织？这张榜单在测什么

ARC Prize Foundation 是一个非营利组织，主要致力于两项工作：维护 ARC-AGI 系列基准测试，并运营一个持续更新的排行榜。它在测试政策中表述得非常直白：这些基准旨在衡量 AI 能力的进展，而非宣布“AGI 已经到来或尚未到来”。

其方法论也十分明确：尽可能公开数据与工具，同时保留“半私有/全私有”评测集以降低数据泄漏与模型过拟合风险；此外还通过竞赛形式在约束环境下进行验证。之所以采取如此复杂的措施，原因在于，一旦评测集完全公开并被反复刷榜，模型与方法便会开始“适配题库”，最终测出的不再是能力本身，而是对特定题库的工程优化能力。

ARC-AGI-1 与 ARC-AGI-2：从“表现聪明”到“兼顾适应与效率”

ARC-AGI 是由 François Chollet 在 2019 年提出的一套“抽象与推理”任务体系。其最常见的直观形态是网格题：输入是一张用 0–9 表示颜色的方格图，系统会看到少量训练样例（输入与输出配对），要求从样例中归纳出隐含规则，并对新的测试输入生成正确的输出。

ARC-AGI-1 抽象推理任务示例

ARC-AGI-1 是最初的版本，后来被 ARC Prize 作为竞赛和长期基准延续下来。它的定位是考察机器的一般性归纳、抽象、推理与泛化能力——许多人将其视为衡量“流体智力”的代表性测试。

ARC-AGI-2 则是升级版本。ARC Prize 在排行榜的说明中明确了它的方向：系统需要同时展现出高适应性与高效率。这句话的现实含义是，并非“耗费巨额推理预算磨出答案”就能算数，而是要以可承受的计算资源，学会陌生规则并稳定地做出正确判断。

此外，ARC-AGI-2 的开源仓库给出了详细的数据结构信息：包含 1000 个公开训练任务、120 个公开评测任务；同时还有半私有与全私有测试集（不在仓库中），用于降低数据泄漏概率，并使难度校准到与公开评测的人类表现相当。

ARC-AGI 如何判定对错：不奖励漂亮话，只认结果

在 ARC-AGI-2 的定义中，“做对一道题”并非写出一段看似合理的解释，而是输出的网格必须与标准答案完全匹配。官方仓库对成功判据的关键点包括：

每个任务由训练集（示例输入/输出对）与测试集（测试输入）组成；
必须对该任务的所有测试输入都生成完全正确的输出，才算“解决该任务”；
每个测试输入允许进行 2 次尝试（此规则对人类与 AI 统一）。

这种判据天然偏向“可验证的交付”：结果非对即错。它不会因为模型输出了冗长且美观的推理链条而给予额外分数。

为何这张榜单更贴近“能否干活”：成本成为显性指标

ARC Prize 排行榜的一个关键设计在于：除了展示分数，还同步公布单任务成本。它将“性能-成本”关系以散点图形式呈现：不仅要做对，还要在合理的资源消耗下做对。

在同一张榜单上，你可以看到：

Base LLM（基座模型）：单次推理所展现的原始能力；
CoT（思维链）：同一模型在不同“思考档位”下的表现（通常思考越深入，成本越高）；
Refinement / Custom（精炼/定制系统）：更偏向系统工程与专用求解器的方案。

这也意味着，如果一个系统需要极其昂贵的推理预算才能接近高分，那么它更像一种“实验室能力展示”；而如果一个系统能在很低的成本下取得不错的分数，则更接近于“可规模化的实用能力”。

全球顶尖水平：ARC-AGI-2 已出现得分70%-80%+的机器系统

首先看“天花板”：人类评审小组在 ARC-AGI-2 上的得分为 100%。

再看机器系统：榜单顶部的模型/系统已经将 ARC-AGI-2 的分数推高至 70%-80%+ 的区间。以下是按官方排行榜表格顺序截取的前五名（用于建立对全球水平的直观认识）：

名次（ARC-AGI-2）	系统	机构/作者	ARC-AGI-2	Cost/Task
1	Human Panel	Human	100.0%	$17.00
2	Gemini 3 Deep Think (2/26)	Google	84.6%	$13.62
3	Gemini 3.1 Pro (Preview)	Google	77.1%	$0.962
4	GPT-5.2 (Refine.)	Johan Land	72.9%	$38.99
5	Claude Opus 4.6 (120K, High)	Anthropic	69.2%	$3.47

同一列表中，既能看到 80%+ 的高分结果，也能观察到成本从每任务不足 1 美元到几十美元的巨大差异。ARC-AGI-2 的现实意义在此凸显：它不允许“只谈能力，不论代价”。

中国模型在 ARC-AGI-2 上的位置：最高11.8%，多数处于1%-5%

将焦点拉回到中国模型。以下为本文撰写时，从 ARC Prize 官方排行榜中汇总的所有中国相关机构条目。名次按官方表格自上而下排列；官方更新后排名可能发生变化。

机构	模型/系统（官方名称）	类型	ARC-AGI-1	ARC-AGI-2	Cost/Task	ARC-AGI-2 名次（约）
Moonshot AI	Kimi K2.5	CoT	65.3%	11.8%	$0.280	32
Minimax	Minimax M2.5	CoT	63.7%	4.9%	$0.170	43
Z.ai	GLM-5	CoT	44.7%	4.9%	$0.270	43
Deepseek	Deepseek V3.2	Base LLM	57.0%	4.0%	$0.120	47
Alibaba	Qwen3-235b-a22b Instruct (25/07)	Base LLM	11.0%	1.3%	$0.004	70
Deepseek	Deepseek R1	CoT	15.8%	1.3%	$0.080	70
Deepseek	Deepseek R1 (05/28)	CoT	21.2%	1.1%	$0.053	76

如果仅看“最高值”，当前中国上榜条目中 ARC-AGI-2 的最佳成绩是 11.8%（Kimi K2.5）；其余大多集中在 1%—5% 的个位数区间。与之形成对比的是，全球头部系统已处于 70%—80%+ 的水平。

更值得注意的是成本侧：中国模型的整体成本并不高，甚至出现了极低的成本（例如 Qwen3-235b-a22b Instruct 标注为 $0.004/任务）。这里显现的落差似乎并非源于“算力堆砌不足”，而更像是模型在这种特定规则迁移任务上的能力结构尚未对齐。

ARC-AGI-2 人类与模型得分对比条形图

榜单投射的现实：差距不在“表达”，而在“迁移”

ARC-AGI-2 的任务形式决定了它对“语言表达能力”几乎不予理睬：最终只判断网格输出是否正确。因此，它对规则迁移能力的考察，比许多传统榜单更为直接和严苛。

在这种测量方式下，当前中国上榜模型整体呈现出三个关键信息：

在成本方面并不处于劣势，甚至存在极低成本条目；
在 ARC-AGI-1 上的分数尚可，但到了 ARC-AGI-2 普遍骤降至个位数甚至 1% 左右；
与全球头部 70%—80%+ 的分数区间相比，存在着数量级上的明显差距。

从“实际干活”的角度来理解，这类差距最容易出现在何种场景？当规则全新、格式陌生、输入输出必须严格结构化且可验证时——例如处理一种新型表单、遵循一套新流程、或在全新约束下执行批处理任务。一旦任务无法依靠“说得像模像样”来蒙混过关，模型底层的抽象与迁移能力便会经受放大镜般的检验。这不仅仅是模型规模或数据量的问题，更涉及到核心算法与推理架构的创新。

这张榜单提醒我们，在追求模型“能说会道”的同时，或许更需要关注其解决未知、结构化问题的硬核能力。对于关心技术前沿的开发者而言，持续追踪此类基准，参与相关的开源实战与讨论，是理解人工智能发展真实脉搏的重要途径。欢迎在云栈社区继续交流相关见解。

信息来源

ARC Prize Leaderboard：https://arcprize.org/leaderboard
ARC Prize Verified Testing Policy：https://arcprize.org/policy
ARC-AGI 总览：https://arcprize.org/arc-agi
ARC-AGI-1：https://arcprize.org/arc-agi/1
ARC-AGI-2（GitHub）：https://github.com/arcprize/ARC-AGI-2

上一篇：瑞幸咖啡的两难：涨价丢客户，保利润就得放缓扩张
下一篇：米哈游入局3D MOBA：基于UE5引擎的PC/主机端游戏机会与挑战分析

大语言模型, ARC-AGI, 模型评测, 推理能力, 人工智能基准