找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3790

积分

1

好友

525

主题
发表于 昨天 04:45 | 查看: 5| 回复: 0

几天前,AI领域的一个标志性事件引发了广泛关注:OpenAI首席科学家Jakub Pachocki在社交平台X上宣布,其内部一个尚在训练的Transformer模型,在一项名为“First Proof”(首次证明)的数学研究挑战中表现惊人。该挑战包含了10道由顶尖数学家提出的、从未公开发表过的前沿数学问题。

Pachocki在推文中写道:“我们对这10个提出的问题运行了我们的内部模型,并在有限的人工监督下,根据专家反馈,我们相信至少其中六个问题的解决方案(第2、4、5、6、9、10题)有很高的正确率。”

Jakub Pachocki关于First Proof挑战的推文截图

OpenAI的联合创始人兼CEO山姆·奥特曼随后转发了这条推文,并评论道:“我们经历了从难以完成小学数学的AI系统,到能够在短短几年内解决研究级数学问题的AI系统的转变。我也相当确定,人们的主要反应会是‘这并不难’。”

Sam Altman关于AI数学能力进步的推文截图

奥特曼在另一条推文中进一步指出,尽管这些结果并非石破天惊,但AI能够产生“真正的、哪怕是微小的新知识”,这本身就是一个重要的里程碑。

Sam Altman评论AI产生新知识里程碑的推文

一项硬核的数学能力测试

那么,这个“First Proof”挑战究竟是什么?它为何如此重要?

这项挑战于2026年2月5日由来自斯坦福、哈佛、耶鲁、哥伦比亚大学等机构的11位顶尖数学家共同发起。他们从自己当前的研究中,提炼出10个真实、前沿的数学问题,覆盖了代数组合学、谱图论、代数拓扑、随机分析、辛几何、表示论等广泛领域。最关键的一点是:这些问题的答案从未在任何公开渠道(如论文、预印本、讲座)中出现过,完全杜绝了模型通过检索训练数据来“作弊”的可能性。

First Proof挑战发起者名单

项目名称“First Proof”借用了烘焙中的术语——“初次发酵”,意指他们将问题抛向社区,让AI模型和研究者们共同“发酵”出解决方案。这不仅仅是一次竞赛,其更深远的目标是探索一种客观评估AI系统自主解决前沿数学问题能力的方法论。

关于First Proof项目背景介绍的图片

OpenAI的“侧翼冲刺”与初步成果

据Pachocki描述,OpenAI对此次挑战的响应更像是一次为期一周的“侧翼冲刺”(side-sprint),主要由他们正在训练的某个模型来完成。他们并未向模型提供解题思路或数学提示,仅在专家反馈后要求模型对部分证明进行扩展。同时,他们还手动协调了该内部模型与ChatGPT进行对话,用于验证、格式化和润色。

最终,OpenAI于2月13日提交了一份长达67页的PDF文档,包含了对全部10个问题的求解尝试,并自信地宣布了至少六道题可能正确的初步判断。

OpenAI提交的First Proof解决方案文档封面

OpenAI的研究员Noam Brown也发声表示,去年夏天AI在国际数学奥林匹克(IMO)上的金牌表现曾被一些人视为“只是高中数学”。他相信,他们最新的模型将消除所有疑虑,证明“STEM研究即将发生根本性变革”。

Noam Brown关于AI推动STEM研究变革的推文截图

后续验证与更复杂的真相

2月14日,First Proof的组织者公布了所有10道问题的官方解决方案,并对包括GPT-5.2 Pro和Gemini 3.0 Deepthink在内的公开模型进行了测试评估。他们的结论更为审慎:在单次尝试中,这些公开可用的最强模型仅正确解答了2道题(第9、10题),且其中一题的证明可能受到了已有文献的“数据污染”。

与此同时,数学社区开始对OpenAI提交的解决方案进行严格的同行评审。事态很快出现了转折。

Pachocki本人更新了声明,基于官方评论和社区分析,承认他们对于第2题的解决方案“很可能是错误的”。随后,社区的独立审查进一步指出,第5题和第7题的解答也存在显著漏洞。

Jakub Pachocki更新声明,承认问题2解决方案可能有误

根据《科学美国人》等媒体的后续报道及社区数学家的评判,目前被较为广泛认可的正确解答可能集中在第4、8、9、10题。这意味着OpenAI模型的实际有效解答数量低于最初宣称的六个。

里程碑意义不容忽视

尽管最终成绩有所调整,但此次事件依然标志着一个历史性的时刻。即便最终确认只有3到4道题被正确解答,这也意味着一个AI系统,在面对从未见过的、真正处于研究前沿的数学问题时,能够在一周内独立(或在少量引导下)生成严格的数学证明。

回顾发展历程,这个速度令人惊叹:从2022年ChatGPT还在分数运算上犯错,到2024年能解部分竞赛题,再到2025年夏天在IMO夺金,直至2026年初尝试解决原创研究问题——这条进阶之路走了不到四年。

以第4题(关于有限加法卷积的调和平均不等式)为例,OpenAI的模型产出了一份逻辑自洽、长达23页的完整证明,最终被专家确认为正确。这已经超越了解答已知问题,具备了产出可发表研究成果的雏形。

First Proof第4题数学证明片段

展望:AI会取代数学家吗?

短期来看,答案是否定的。正如《科学美国人》在报道中所言:“人工智能不会取代数学家。”

《科学美国人》报道截图,称AI不会取代数学家

数学研究的核心远不止“证明一个已知命题”。它更包括提出有价值的问题、创造新的概念、构建理论框架等需要深刻洞察力和创造力的环节。First Proof挑战主要测试的是相对更“机械化”的证明步骤。

然而,变化正在发生。一些顶尖数学家已经开始加入像OpenAI、Google DeepMind这样的AI实验室。他们的理由很直接:AI无疑将改变数学研究的方式,与其被动适应,不如主动参与塑造未来。

First Proof团队已经宣布,他们将在2026年3月14日(π日)公布下一轮挑战的更多细节,并计划建立更严格的评估框架。

First Proof团队关于下一轮挑战安排的声明

这次挑战并非终点,而是一个新时代的序曲。它标志着AI正在从一个笨拙的学生,逐渐演变为数学家们一个有时会犯错、但潜力惊人的“研究伙伴”。这场深刻的变革才刚刚开始,对于整个科学界和像云栈社区这样的技术社区而言,保持关注并思考其影响将至关重要。




上一篇:Claude Code 2.1实测:4个隐藏功能如何提升开发效率与架构可维护性
下一篇:归纳偏置在 Vision Transformer 设计中的应用与平衡之道
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-25 09:11 , Processed in 0.454145 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表