OpenAI 说它的内部模型推翻了一道近 80 年的数学猜想。
这次该记住的,除了突破本身,还有怎么判断这种突破是真是假。
2026 年 5 月 20 日,OpenAI 说它的一个内部模型推翻了一道近 80 年的数学猜想:Erdős 在 1946 年提出的单位距离猜想。
这句话放在七个月前,先别急着信。
2025 年 10 月,OpenAI 一位副总裁发推,说 GPT-5 解开了 10 道「未解」的 Erdős 难题,还在另外 11 道上有进展。
数学家很快指出问题。
模型并没有真解开那些题。它只是检索到了已经发表、但对方没收录进自己网站的旧文献。那条推后来删了。OpenAI 也把口径收回成「文献搜索能力」。
所以,再看到「AI 推翻数学猜想」,警惕是正常反应。
这回多了一个硬凭据。有 9 位数学家公开署名,写了一份「人工验证版」证明。其中一位,正是七个月前出来打脸的那个人。

一、打脸的人,这回签了字
那位数学家叫 Thomas Bloom。单位距离问题在他维护的网站上编号 Problem #90。
七个月前,是他指出 OpenAI「把检索已有文献,说成了解决未解难题」。
这回,他是那份验证文档的 9 位署名作者之一。
一起签字的还有 Fields 奖得主 Tim Gowers。Fields 奖是数学界的最高荣誉之一。
两次事件的差别很清楚。
2025 年那次,只有一条很快删掉的推文,没有可查的证明。
2026 年这次,有公开的证明 PDF,有 9 位外部数学家逐行消化过,还附上每个人的评估意见。外媒标题写得很直:「这次是真的了」。
AI 做的事,指向 Erdős 关于「单位距离」的一个猜想。
问题本身一句话能讲清:平面上放 n 个点,最多能有多少对点,彼此距离恰好等于 1?
Erdős 猜,这个数字增长得几乎跟点数成正比,再快也快不上去。数学上把这叫「几乎线性」。近 80 年,大多数专家相信这是对的。
AI 找到了一族新的点的摆法,让单位距离点对的增长速度,比「几乎线性」那条线明确快出固定的一截。这足以推翻 Erdős 的猜想。
这族摆法,人类 80 年没有找到。
证明里能看到模型的思路:原则上所有极端例子都能用代数方式表示,但那个代数表示的「次数」可能大得吓人。
模型把这个大次数当成入口。它没沿着人类几十年走熟的几何路线继续推,而是转向数论。
把别人当障碍的东西看成机会,这一步过去常被看作「人类数学家才有的品味」。

二、但「自己解开的」这个「自己」,要打个折
OpenAI 的措辞很硬。
证明文档里写着「completely automated fashion」,完全自动化完成。
还写着「autonomously produced solution」,自主产生的解。
把流程拆开看,人没有缺席。
第一,模型拿到的题,是 AI 写的形式化陈述。模型解完,先过一道 AI 自动评分,判定「高置信正确」。之后,人类数学家介入。
第二,原始那份 AI 证明,没有具体改进数值。
是数学家 Will Sawin 后续精炼,才给出 δ = 0.014。
δ = 0.014 什么概念?就是前面说的「快出的那一截」:点对数量按 n 的 1.014 次方增长。
数字小得可怜。意义落在性质变化上:把「几乎线性」变成了「多项式超线性」。
第三,最终这份能发表、能读懂的证明,是「人类编辑的阐述版」。它补了引用,重组了证明,加了解释。
Bloom 说,原始 AI 证明确实有效,但被人类「显著改进」过。
Gowers 的反应也很微妙。
他一开始从同事那听说,误以为 AI 证明了那个上界成立,吓得「花了一整晚重整世界观:如果 AI 能想出那种证明,数学家可能很快就要失业了」。
第二天搞清是「推翻」,不是「证明」,他「大大松了一口气」。
为什么松口气?
Gowers 解释:找一个反例,可以想象成「试很多东西、某一刻撞了运气」,不一定要深刻洞察。
需要全新思想的证明,才更可怕。他特意补一句:这次未必就是碰运气,只是可以这么想象。
Bloom 给的判断更冷静:这个结果让人看到数论工具对这类问题能说的比预想多,但它「没有引入任何强大的新几何工具,也没有此前未曾料到的结构性结果」。
那族摆法,是 Erdős 原来网格构造的「自然但高度非平凡的推广」。
还要放准位置:这是离散几何里一个核心猜想,和黎曼猜想、P=NP 那种全数学地标不同层级。
当前能证明的上界,还停在 n 的 4/3 次方那一档。新下界和它之间仍有很大距离。

三、比「AI 会不会取代数学家」更实在的问题
把 2025 的翻车和 2026 的真突破放在一起看,差别不在一句「AI 又变强了」。
差别在可验证性。
2025 那次:一条删掉的推文,没有证明。
2026 这次:公开证明、9 位外部数学家署名、连原来的批评者都签了字、外媒敢写「这次是真的」。
判断一个 AI 数学突破的成色,就看四件事:谁验证了、改进有多大、它自主到哪一步、那个领域有多核心。
这回四件事都有答案。
但「真」不等于「无限大」。前面那些折扣,也都成立。

还有一个信号,比这道题本身更该被看见。
业界常把推理模型用在写代码、做客服上。所谓推理模型,就是会一步步推演、而不是脱口而出答案的那种 AI。
这回它露出的能力,是愿意走人类不爱走的路:放下走熟的几何方法,绕进数域、类域塔这类抽象的数论工具。
这些工具先验上没人觉得会跟一道几何题有关。
前沿实验室已经在把推理模型当作科研搜索引擎和猜想生成器来押注,而非只追对话体验。这回只是一个早期样本。
样本仍然只是样本。
这是单独一例。模型没公开,用了多少算力、采样多少次、失败多少次,全不透明。不能据此说「推理模型这条路线已经赢了」。
收尾
AI 会不会取代数学家,这篇不下结论。
在云栈社区,我们更关心的是:下次再刷到「AI 解开了某某难题」的标题,你怎么自己分辨,它是 2025 年的翻车,还是 2026 年的真突破?
谁验证了、改进有多大、它到底自主到哪一步、那个领域有多核心。
这四个问题,比标题里那个惊叹号,更值得多看几分钟。