云栈社区»论坛 › 开发者广场「Dev Plaza」 › AI数学研究获突破：OpenAI内部模型在First Proof挑战中表现亮眼 ...

发回帖发新帖

5858 积分	1 好友	759 主题

发消息

AI数学研究获突破：OpenAI内部模型在First Proof挑战中表现亮眼

发表于 2026-2-24 04:45:53 | 查看: 193| 回复: 0

几天前，AI领域的一个标志性事件引发了广泛关注：OpenAI首席科学家Jakub Pachocki在社交平台X上宣布，其内部一个尚在训练的Transformer模型，在一项名为“First Proof”（首次证明）的数学研究挑战中表现惊人。该挑战包含了10道由顶尖数学家提出的、从未公开发表过的前沿数学问题。

Pachocki在推文中写道：“我们对这10个提出的问题运行了我们的内部模型，并在有限的人工监督下，根据专家反馈，我们相信至少其中六个问题的解决方案（第2、4、5、6、9、10题）有很高的正确率。”

Jakub Pachocki关于First Proof挑战的推文截图

OpenAI的联合创始人兼CEO山姆·奥特曼随后转发了这条推文，并评论道：“我们经历了从难以完成小学数学的AI系统，到能够在短短几年内解决研究级数学问题的AI系统的转变。我也相当确定，人们的主要反应会是‘这并不难’。”

Sam Altman关于AI数学能力进步的推文截图

奥特曼在另一条推文中进一步指出，尽管这些结果并非石破天惊，但AI能够产生“真正的、哪怕是微小的新知识”，这本身就是一个重要的里程碑。

Sam Altman评论AI产生新知识里程碑的推文

一项硬核的数学能力测试

那么，这个“First Proof”挑战究竟是什么？它为何如此重要？

这项挑战于2026年2月5日由来自斯坦福、哈佛、耶鲁、哥伦比亚大学等机构的11位顶尖数学家共同发起。他们从自己当前的研究中，提炼出10个真实、前沿的数学问题，覆盖了代数组合学、谱图论、代数拓扑、随机分析、辛几何、表示论等广泛领域。最关键的一点是：这些问题的答案从未在任何公开渠道（如论文、预印本、讲座）中出现过，完全杜绝了模型通过检索训练数据来“作弊”的可能性。

First Proof挑战发起者名单

项目名称“First Proof”借用了烘焙中的术语——“初次发酵”，意指他们将问题抛向社区，让AI模型和研究者们共同“发酵”出解决方案。这不仅仅是一次竞赛，其更深远的目标是探索一种客观评估AI系统自主解决前沿数学问题能力的方法论。

关于First Proof项目背景介绍的图片

OpenAI的“侧翼冲刺”与初步成果

据Pachocki描述，OpenAI对此次挑战的响应更像是一次为期一周的“侧翼冲刺”（side-sprint），主要由他们正在训练的某个模型来完成。他们并未向模型提供解题思路或数学提示，仅在专家反馈后要求模型对部分证明进行扩展。同时，他们还手动协调了该内部模型与ChatGPT进行对话，用于验证、格式化和润色。

最终，OpenAI于2月13日提交了一份长达67页的PDF文档，包含了对全部10个问题的求解尝试，并自信地宣布了至少六道题可能正确的初步判断。

OpenAI提交的First Proof解决方案文档封面

OpenAI的研究员Noam Brown也发声表示，去年夏天AI在国际数学奥林匹克（IMO）上的金牌表现曾被一些人视为“只是高中数学”。他相信，他们最新的模型将消除所有疑虑，证明“STEM研究即将发生根本性变革”。

Noam Brown关于AI推动STEM研究变革的推文截图

后续验证与更复杂的真相

2月14日，First Proof的组织者公布了所有10道问题的官方解决方案，并对包括GPT-5.2 Pro和Gemini 3.0 Deepthink在内的公开模型进行了测试评估。他们的结论更为审慎：在单次尝试中，这些公开可用的最强模型仅正确解答了2道题（第9、10题），且其中一题的证明可能受到了已有文献的“数据污染”。

与此同时，数学社区开始对OpenAI提交的解决方案进行严格的同行评审。事态很快出现了转折。

Pachocki本人更新了声明，基于官方评论和社区分析，承认他们对于第2题的解决方案“很可能是错误的”。随后，社区的独立审查进一步指出，第5题和第7题的解答也存在显著漏洞。

Jakub Pachocki更新声明，承认问题2解决方案可能有误

根据《科学美国人》等媒体的后续报道及社区数学家的评判，目前被较为广泛认可的正确解答可能集中在第4、8、9、10题。这意味着OpenAI模型的实际有效解答数量低于最初宣称的六个。

里程碑意义不容忽视

尽管最终成绩有所调整，但此次事件依然标志着一个历史性的时刻。即便最终确认只有3到4道题被正确解答，这也意味着一个AI系统，在面对从未见过的、真正处于研究前沿的数学问题时，能够在一周内独立（或在少量引导下）生成严格的数学证明。

回顾发展历程，这个速度令人惊叹：从2022年ChatGPT还在分数运算上犯错，到2024年能解部分竞赛题，再到2025年夏天在IMO夺金，直至2026年初尝试解决原创研究问题——这条进阶之路走了不到四年。

以第4题（关于有限加法卷积的调和平均不等式）为例，OpenAI的模型产出了一份逻辑自洽、长达23页的完整证明，最终被专家确认为正确。这已经超越了解答已知问题，具备了产出可发表研究成果的雏形。

First Proof第4题数学证明片段

展望：AI会取代数学家吗？

短期来看，答案是否定的。正如《科学美国人》在报道中所言：“人工智能不会取代数学家。”

《科学美国人》报道截图，称AI不会取代数学家

数学研究的核心远不止“证明一个已知命题”。它更包括提出有价值的问题、创造新的概念、构建理论框架等需要深刻洞察力和创造力的环节。First Proof挑战主要测试的是相对更“机械化”的证明步骤。

然而，变化正在发生。一些顶尖数学家已经开始加入像OpenAI、Google DeepMind这样的AI实验室。他们的理由很直接：AI无疑将改变数学研究的方式，与其被动适应，不如主动参与塑造未来。

First Proof团队已经宣布，他们将在2026年3月14日（π日）公布下一轮挑战的更多细节，并计划建立更严格的评估框架。

First Proof团队关于下一轮挑战安排的声明

这次挑战并非终点，而是一个新时代的序曲。它标志着AI正在从一个笨拙的学生，逐渐演变为数学家们一个有时会犯错、但潜力惊人的“研究伙伴”。这场深刻的变革才刚刚开始，对于整个科学界和像云栈社区这样的技术社区而言，保持关注并思考其影响将至关重要。

上一篇：Claude Code 2.1实测：4个隐藏功能如何提升开发效率与架构可维护性
下一篇：归纳偏置在 Vision Transformer 设计中的应用与平衡之道

人工智能数学研究, OpenAI, 首次证明, Transformer, 数学证明自动化