
Source: Google DeepMind
近期AI在数学领域的突破,例如DeepMind的Aletheia项目取得的进展,清晰地表明了一个紧迫的现实:我们急需一套全新且更具挑战性的评测基准来衡量AI的能力,而且动作要快——因为现有的测试题很快就会被AI“刷”穿。
业内专家指出,过去几代难度相对较低的数学评测基准已经完全过时了。而最新推出的FrontierMath基准,很可能在未来一两年内就被顶尖人工智能模型拿到满分,甚至速度可能更快。
First Proof挑战赛:来自研究一线的真实难题
为了应对这一挑战,一个由11位顶尖数学家组成的团队于今年2月发起了一项名为“First Proof”的挑战赛,并公布了10道难度极高的数学题。这些题目均直接取材于数学家们实际的研究工作,其证明篇幅大约在5页以内,并且此前从未对外公开过。这项挑战赛旨在初步评估AI系统独立解决研究级数学难题的能力。
消息一出,便在数学界和AI界引发了热烈讨论。专业数学家、业余爱好者以及包括OpenAI在内的多个顶尖AI团队都参与其中。然而,直到2月14日发起者公布标准答案时,仍然没有任何团队能提交全部10道题的正确解答。
实际结果远未达到理想状态。即便是出题团队自己,在借助Gemini 3.0 Deep Think和ChatGPT 5.2 Pro的情况下,也只解出了10题中的2道。除了OpenAI与谷歌DeepMind内部的小型Aletheia团队外,大多数外部参赛队伍的成绩也相差无几。在有限的人工辅助下,OpenAI最先进的内部AI系统解出了5道题,Aletheia也取得了相近的成绩。这一结果在数学界引起了复杂反应,有人惊叹于AI的进步,也有人对目前的能力感到失望。根据计划,“First Proof”挑战赛团队将在3月14日推出难度更高的第二轮比赛。
AI能力评测的新前沿:从已知答案到开放问题
有观点认为,“First Proof”挑战赛非常出色,因为它最接近让AI站在数学家的真实视角去解决问题。虽然认可这种从广泛数学领域检验AI实用价值的方式,但研究机构Epoch AI也推出了自己全新的测试方案——FrontierMath: Open Problems(前沿数学:开放问题)。
这个试点基准的独特之处在于,它包含了16道来自数学研究的真实公开难题(后续还会增加),这些都是专业数学家曾尝试但未能解决的问题。自1月27日“Open Problems”基准发布以来,尚无任何AI能解开其中任何一道题(题目详情可见:https://epoch.ai/frontiermath/open-problems)。
基准设计者表示,他们设计这些开放问题,就是为了让测试本身更具挑战性。对于AI而言,哪怕只是在这些问题上取得一些基础性的进展,其成果都足以在专业期刊上发表。更特别的是,虽然没人知道这些开放问题的标准答案是什么,但每一道题都配备了可以自动评分的程序。这听起来有些反直觉,但系统确实能通过一段预设的程序,来判断AI给出的解答是否正确。
业内分析认为,“First Proof”与“Open Problems”是两种互补的评测思路。要全面了解AI的能力,评测自然是越多越好、维度越丰富越好。目前,AI在某些数学领域的能力已经超过了大多数博士生。因此,我们必须提出这样的核心问题:评测所寻求的答案,其本身应对人类数学家具有实际意义;我们关注的重点不应仅仅是“AI在做题”,而应是“这是人类数学家真正关切的数学问题”。
想了解更多关于AI前沿、计算机科学原理以及技术人成长相关的深度讨论,欢迎访问云栈社区,与更多开发者和研究者一起交流碰撞。
|