4991 积分	0 好友	681 主题

发消息

AI数学能力评测新挑战：FrontierMath与First Proof如何定义下一代基准

发表于 2026-3-3 09:40:16 | 查看: 82| 回复: 0

AI数学推理能力评估分数趋势图
Source: Google DeepMind

近期AI在数学领域的突破，例如DeepMind的Aletheia项目取得的进展，清晰地表明了一个紧迫的现实：我们急需一套全新且更具挑战性的评测基准来衡量AI的能力，而且动作要快——因为现有的测试题很快就会被AI“刷”穿。

业内专家指出，过去几代难度相对较低的数学评测基准已经完全过时了。而最新推出的FrontierMath基准，很可能在未来一两年内就被顶尖人工智能模型拿到满分，甚至速度可能更快。

First Proof挑战赛：来自研究一线的真实难题

为了应对这一挑战，一个由11位顶尖数学家组成的团队于今年2月发起了一项名为“First Proof”的挑战赛，并公布了10道难度极高的数学题。这些题目均直接取材于数学家们实际的研究工作，其证明篇幅大约在5页以内，并且此前从未对外公开过。这项挑战赛旨在初步评估AI系统独立解决研究级数学难题的能力。

消息一出，便在数学界和AI界引发了热烈讨论。专业数学家、业余爱好者以及包括OpenAI在内的多个顶尖AI团队都参与其中。然而，直到2月14日发起者公布标准答案时，仍然没有任何团队能提交全部10道题的正确解答。

First Proof挑战赛论文: https://arxiv.org/abs/2602.05192
关于首批题目: https://1stproof.org/
已公布的证明: https://codeberg.org/tgkolda/1stproof/src/branch/main/2026-02-batch/FirstProofSolutionsComments.pdf

实际结果远未达到理想状态。即便是出题团队自己，在借助Gemini 3.0 Deep Think和ChatGPT 5.2 Pro的情况下，也只解出了10题中的2道。除了OpenAI与谷歌DeepMind内部的小型Aletheia团队外，大多数外部参赛队伍的成绩也相差无几。在有限的人工辅助下，OpenAI最先进的内部AI系统解出了5道题，Aletheia也取得了相近的成绩。这一结果在数学界引起了复杂反应，有人惊叹于AI的进步，也有人对目前的能力感到失望。根据计划，“First Proof”挑战赛团队将在3月14日推出难度更高的第二轮比赛。

AI能力评测的新前沿：从已知答案到开放问题

有观点认为，“First Proof”挑战赛非常出色，因为它最接近让AI站在数学家的真实视角去解决问题。虽然认可这种从广泛数学领域检验AI实用价值的方式，但研究机构Epoch AI也推出了自己全新的测试方案——FrontierMath: Open Problems（前沿数学：开放问题）。

这个试点基准的独特之处在于，它包含了16道来自数学研究的真实公开难题（后续还会增加），这些都是专业数学家曾尝试但未能解决的问题。自1月27日“Open Problems”基准发布以来，尚无任何AI能解开其中任何一道题（题目详情可见：https://epoch.ai/frontiermath/open-problems）。

基准设计者表示，他们设计这些开放问题，就是为了让测试本身更具挑战性。对于AI而言，哪怕只是在这些问题上取得一些基础性的进展，其成果都足以在专业期刊上发表。更特别的是，虽然没人知道这些开放问题的标准答案是什么，但每一道题都配备了可以自动评分的程序。这听起来有些反直觉，但系统确实能通过一段预设的程序，来判断AI给出的解答是否正确。

业内分析认为，“First Proof”与“Open Problems”是两种互补的评测思路。要全面了解AI的能力，评测自然是越多越好、维度越丰富越好。目前，AI在某些数学领域的能力已经超过了大多数博士生。因此，我们必须提出这样的核心问题：评测所寻求的答案，其本身应对人类数学家具有实际意义；我们关注的重点不应仅仅是“AI在做题”，而应是“这是人类数学家真正关切的数学问题”。

想了解更多关于AI前沿、计算机科学原理以及技术人成长相关的深度讨论，欢迎访问云栈社区，与更多开发者和研究者一起交流碰撞。

上一篇：技术职场观察：从“周三不加班日”看大厂管理的效率困局与工时崇拜
下一篇：技术人35岁的搞钱沉思录：告别无谓争论，聚焦AI与职业成长

人工智能, 评测基准, DeepMind, OpenAI, 数学挑战赛

AI数学能力评测新挑战：FrontierMath与First Proof如何定义下一代基准

First Proof挑战赛：来自研究一线的真实难题

AI能力评测的新前沿：从已知答案到开放问题

相关帖子