对于关注前沿AI挑战的开发者来说,由Keras创始人François Chollet和Mike Knoop共同发起的ARC Prize 2026是一个绕不开的顶级赛事。它不追求参数规模,而是直指AI的核心能力——“流体智能”,即面对从未见过的新问题时,快速学习和适应的能力,而非仅仅依靠海量数据的模式识别。在这场挑战通用智能(AGI)的比赛中,了解其赛题设置是参与或学习的第一步。在云栈社区的智能 & 数据 & 云板块,我们经常探讨这类前沿数据科学挑战。
赛题背景
ARC(全称 Abstraction and Reasoning Corpus,抽象与推理语料库)被认为是目前衡量人工智能“通用智能”(AGI)水平最权威、难度最高的基准测试之一。

Chollet认为,目前的AI(如大语言模型)主要是 “经验智能”:通过背诵数万亿个词汇来模拟对话。而ARC衡量的是 “流体智能”:即在没有任何先验经验的情况下,面对一个全新规则的问题,能否像人类一样通过观察极少量的例子,迅速归纳出潜在逻辑并解决问题。
一个标准的ARC任务通常由 2-3个示例(Task Examples) 和 1个测试输入(Test Input) 组成:
- 网格世界: 所有任务都在一个最高 30x30 的彩色网格中进行,颜色共有10种。
- 极少样本: AI只能看到2到3个输入-输出的对比,必须从中“悟”出规则。
| 赛道名称 |
侧重点 |
目标 |
| ARC-AGI-2 |
静态推理 |
给定网格,预测唯一正确的输出。 |
| ARC-AGI-3 |
交互智能 |
Agent在环境中通过动作(Action)探索逻辑。 |
| Paper Track |
理论沉淀 |
文档化你的方法论,分享如何实现通用泛化。 |
赛题1:论文赛道 (Paper Track)
https://www.kaggle.com/competitions/arc-prize-2026-paper-track
该赛道要求参赛者提交一份详细的 Writeup,记录并分析针对 ARC-AGI-2(静态推理基准)或 ARC-AGI-3(交互式推理基准)所采取的技术方案。
有效的提交必须包含以下三部分:
- Kaggle Writeup (报告): 详细分析你的方法,字数不超过 1500字。
- 媒体库 (Media Gallery): 必须包含一张封面图,也可上传视频。
- 公开 Notebook: 必须关联一个在Kaggle上公开的代码笔记本。
- 注:也可以选择上传PDF版本的正式论文替代Kaggle Writeup文本。
评审将从以下六个维度同等权衡:
- 准确性 (Accuracy): 方案在排行榜上的实际得分表现。
- 普适性 (Universality): 方法是否具有通用性,能否转化到其他类似问题上。
- 进步性 (Progress): 该论文对社区达成ARC高分的贡献程度。
- 理论性 (Theory): 是否清晰解释了方案为什么有效,而不仅仅是如何操作。
- 完整性 (Completeness): 对代码和方案的描述是否详尽且易于复现。
- 创新性 (Novelty): 相对于现有公开研究的创新程度。
赛题参赛时间如下:
- 开始日期: 2026年3月25日
- 截止日期: 2026年11月9日 (11:59 PM UTC)
- 结果公布: 预计2026年12月
赛题2:AGI-2 赛道
https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-2
ARC(Abstraction and Reasoning Corpus)由Google研究员François Chollet创建。不同于传统的机器学习任务,ARC任务具有以下特点:
- 极少样本: 每个任务只提供2-3个输入输出示例。
- 零转换: 测试集的逻辑在训练集中从未出现过。
- 人类直觉: 任务对人类来说非常简单(如颜色填充、镜像对称、物体移动),但对目前的LLM和深度学习模型极具挑战。
你需要预测测试输入对应的网格(Grid)输出。
- 尝试机会: 每个任务有 2次尝试机会(
attempt_1 和 attempt_2)。
- 评分标准: 只要2次尝试中有一次与标准答案完全一致(Exact Match),该任务即得1分;否则得0分。
- 最终得分: 所有任务得分的平均值。
赛题参赛时间如下:
- 报名截止: 10月26日
- 合并组队截止: 10月26日
- 最终提交截止: 11月2日
- 结果公布: 12月4日
赛题3:AGI-3 赛道
https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3
在ARC-AGI-3中,AI不再只是观察几个静态示例然后预测结果,而是置身于一个 隐藏且可交互的环境 中:
- 探索性: 系统必须通过与环境交互(尝试动作、观察反馈)来理解任务逻辑。
- 多步推理: 解决问题通常需要执行一系列复杂的动作序列。
- 抗记忆性: 交互环境的设计使得AI无法通过背诵训练集答案来得分,必须展现出真正的即时学习能力。
满分 (100%) 代表Agent不仅完成了任务,且使用的 动作步数 (Actions) 与人类持平。
赛题参赛时间如下:
- 里程碑 1: 6月30日(需公开Notebook才有资格领奖)
- 里程碑 2: 9月30日
- 报名/组队截止: 10月26日
- 最终提交截止: 11月2日
ARC Prize的核心魅力在于它迫使研究者去思考超越数据拟合的智能本质。无论是尝试设计新颖的算法来攻克ARC-AGI-2的静态谜题,还是构建能主动探索的智能体应对ARC-AGI-3的交互挑战,抑或是通过论文赛道进行深刻的人工智能理论反思,这都是一场关于“智能”本身的硬核探索。
|