云栈社区»论坛 › 开发者广场「Dev Plaza」 › Google DeepMind发布AGI评估认知框架，悬赏20万美元征集基准测试 ...

发回帖发新帖

5320 积分	0 好友	736 主题

发消息

Google DeepMind发布AGI评估认知框架，悬赏20万美元征集基准测试

发表于 2026-3-19 07:55:53 | 查看: 159| 回复: 0

Google DeepMind发布AGI认知评估框架

如何客观衡量我们离通用人工智能（AGI）还有多远？当前大模型在某些任务上表现惊艳，但它们真的具备通用智能吗？Google DeepMind 发布的最新研究论文《Measuring Progress Toward AGI: A Cognitive Framework》试图为这个难题提供一个系统性的解决方案。

论文地址：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf

这项研究的核心主张很明确：与其无休止地争论AGI的定义，不如先建立一个科学、可操作的评估体系。为此，团队从认知科学中汲取灵感，将通用智能拆解为10项关键的认知能力，并设计了一套三阶段的评估协议。更引人注目的是，DeepMind 联合 Kaggle 平台发起了总奖金高达20万美元的黑客松竞赛，邀请全球研究者和开发者共同创建高质量的评测基准。

从分级到度量：填补AGI路线图的空白

这并非 DeepMind 首次规划AGI的发展路径。早在2023年，同一团队就提出了著名的“AGI分级”框架，将AGI的发展划分为从“新兴”到“超人”的5个性能等级和6个自主性等级。

AGI能力分级表格

这个框架为行业提供了共同语言，类似于自动驾驶的L1-L5分级。但它留下了一个关键问题：如何具体测量每个等级？最新论文正是为了填补这一空白，从“画台阶”转向“造尺子”。

十维认知地图：解构通用智能的基石

新框架的核心是一套“认知分类法”，它将实现AGI所需的核心能力归纳为10个维度。这源于对人类认知过程的深入研究，涵盖了心理学、神经科学等多个领域的成果。

认知能力思维导图

这10项能力包括8种基础能力和2种复合能力：

1. 感知（Perception）
从环境（视觉、听觉等）中提取和处理信息。值得注意的是，大语言模型对文本的“感知”是通过token化直接进行的，这是一种人类不具备的独特模态。

2. 生成（Generation）
产生文本、语音、动作等输出。其中，“思维生成”（产生内部推理链）与当前前沿模型的推理能力相关，但由于其内在性，评估极具挑战。

3. 注意力（Attention）
在信息过载时集中认知资源。关键在于平衡专注与警觉，既要完成任务，又不能忽略环境中的重要变化。

4. 学习（Learning）
通过经验获取新知识和技能。真正的AGI应能在部署后持续学习并保留知识，而非仅在训练或有限上下文内有效。

5. 记忆（Memory）
存储和检索信息。这不仅包括语义、情景等记忆类型，连“主动遗忘”过时或错误信息也被视为智能的重要组成部分。

6. 推理（Reasoning）
通过逻辑原则得出有效结论，包括演绎、归纳、类比等。单纯的模式匹配不能算作推理。

7. 元认知（Metacognition）
这项能力可能是区分高级系统的关键。它要求系统：

知道自己知道什么、不知道什么（元认知知识）。
能实时监测自己的认知状态，例如对答案的置信度（元认知监控）。
能根据监控调整策略，例如在犯错时切换方法（元认知控制）。

一个无法意识到自己在“胡说八道”的AI，其可靠性无从谈起。

8. 执行功能（Executive Functions）
支撑目标导向行为的高阶能力集合，包括规划、抑制控制、认知灵活性等。

9. 问题解决（Problem Solving）（复合能力）
综合运用上述多种能力来解决具体问题。

10. 社会认知（Social Cognition）（复合能力）
处理社会信息、理解他人意图并进行适当社交互动的能力。

DeepMind 的假设是，如果一个系统在这10个维度上存在明显短板，它就无法胜任大多数人类能完成的现实任务，也就称不上真正的“通用”智能。

三步评估法：绘制AI的认知雷达图

有了分类，如何评估？Google 提出了一个三阶段协议：

第一步：认知评测
让AI完成覆盖全部10种认知能力的专门任务。任务设计必须严谨：针对特定能力、使用保密题库、经第三方审计、难度有梯度、格式多样化。

第二步：收集人类基线
让大量具有代表性的人类在完全相同的条件（指令、格式、工具权限）下完成同一套测试，建立表现分布。

第三步：构建认知画像
将AI在每项能力上的得分与人类基线进行比较，计算其超过了多少百分比的人类。最终结果以一张10维雷达图呈现。

三种假设系统的认知能力雷达图对比

为什么必须用雷达图？因为当前AI的能力通常是“锯齿状”的——可能在逻辑推理上超越99%的人，却在社会认知上不如普通人。单一总分会掩盖这种致命的“偏科”，而雷达图能清晰揭示其真实的能力轮廓。上图展示了三种假想情况：A）部分能力低于人类中位数；B）所有能力超过人类中位数；C）所有能力达到人类顶尖水平（第99百分位）。

为何需要新尺子？旧评估体系的双重困境

现有的主流评估方式为何失效？这背后有两个根本原因：

首先是“数据污染”问题。如果模型在训练时已“见过”测试题答案，其高分仅能证明记忆而非理解，陷入了“小镇做题家”困境。

其次是评测对象模糊。如今我们评估的往往不是一个孤立的模型，而是一个包含系统提示、工具调用（计算器、搜索、代码执行）的完整系统。这导致很难分清测得的是模型的“记忆力”还是其“使用搜索引擎的能力”。

正是由于题库泄漏和评测对象模糊化，DeepMind 认为有必要从认知科学第一性原理出发，重建评估框架，并向全球社区开放“出题权”。

20万美元黑客松：聚焦五大评估深水区

DeepMind 承认，在问题解决等领域现有基准尚可，但在元认知、注意力、学习、执行功能和社会认知这几个方面，评估工具几乎是一片空白。

为此，与论文同步推出的 Kaggle 黑客松精准聚焦于这五个评估缺口最大的认知能力：学习、元认知、注意力、执行功能、社会认知。

Kaggle黑客松活动页面截图

项目地址：https://www.kaggle.com/competitions/kaggle-measuring-agi

竞赛总奖金20万美元。5个赛道各设2个一等奖（各1万美元），另设4个全场特等奖（各2.5万美元），以鼓励跨赛道的通用性评估方案。

黑客松奖项设置

赛程从2026年3月17日持续至6月1日。如果成功，这套评估体系有望成为AGI领域的公共基准，就像ImageNet之于计算机视觉一样。

框架的边界与未来

在论文讨论部分，团队也坦诚指出了认知评估框架暂时“管不到”但至关重要的其他维度：

处理速度：正确率相同，但耗时差异可能决定实用价值。
系统倾向性：系统的风险偏好、价值观对齐等行为特征，影响部署安全。
创造力：其核心组件已被覆盖，但作为整体仍难客观评估。
端到端部署评估：实验室认知评估需与真实场景测试互补，前者解释“为何失败”，后者预测“上线风险”。

DeepMind 强调，这个框架只是一个“起点”。未来的AI系统很可能发展出人类不具备的认知能力（如LiDAR感知、原生图像生成），因此分类法本身也需要持续迭代。这项研究最重要的意义在于，它将AGI评估从主观争论，开始推向一条有理论支撑、可操作、可复现的科学轨道。接下来的悬念是：第一个在十维认知雷达图上全面点亮，达到甚至超越人类水平的系统，会由谁创造？

对于关注人工智能前沿进展的开发者与研究者而言，参与这类基准构建或关注其进展，是把握技术脉搏的重要方式。技术社区的集体智慧，往往是推动类似基础标准演进的关键力量。

上一篇：AI Agent、LLM与Skill技术详解：从旅行助手“小旅”看懂智能体架构
下一篇：从黑屏到AIOps：论知识与数据在智能运维中的连接演进

通用人工智能, 评估, 认知科学, DeepMind, 大模型