上海这几天的雨下得有点敷衍,但湿冷感却是实打实的。
今天是 2026 年 2 月 21 日。回想两年前,我们还在为 ChatGPT 能做对几道奥数题而欢呼,或者嘲笑它连“9.11 和 9.9 哪个大”都要纠结半天。那时的 AI ,像个才华横溢但满嘴跑火车的文科生,写诗一流,算账却经常抓瞎。
但今天 OpenAI 抛出的这个“First Proof”,让我手里的热咖啡都忘了喝。这可不是又一个参数更大的 GPT 变体,这是一个“逻辑判官”。简单来说,AI 终于学会了在开口说话前,先过一遍脑子了。
1. 告别“概率性胡扯”:上帝不再掷骰子
说实话,之前的大模型解数学题,本质上是在“猜”。
它看过海量的数学资料,知道“e^(iπ)”后面大概率跟着“+1=0”。但它真的理解欧拉公式背后的原理吗?未必。它只是在概率的海洋里冲浪。一旦逻辑链条拉长,或者遇到从未见过的题型,它就开始“一本正经地胡说八道”。这种幻觉(Hallucination)问题,一直是将其应用于严肃科学领域的巨大障碍。
“First Proof”的出现,直接掀翻了这张概率游戏的桌子。
OpenAI 这次不跟你谈“下一个词预测概率”,而是谈“形式化验证(Formal Verification)”。他们让模型在输出答案的同时,必须生成一段可以被计算机程序(比如 Lean 或 Coq)严格验证的证明代码。
这就好比,以前 AI 做题是“我觉得答案是 5,因为感觉像”,现在 AI 必须说:“答案是 5,这是我的完整证明过程,请那个叫 Lean 的铁面判官检查一遍。只有它通过了,我才能最终确认。”
这不仅仅是做对几道题的事,这是把 AI 从“吟游诗人”塑造成“严谨的数学家”的关键一步。
2. 盲点挖掘:它不是更聪明,而是更诚实
很多人可能会直觉地认为,First Proof 的突破源自模型更大、参数更多。
但恰恰相反,我觉得其中最有趣的盲点在于:First Proof 的核心驱动力不是“智商”的提升,而是“谦卑”的引入。
以往的模型,为了迎合人类用户的期待,即使内部不确定,也倾向于硬编一个答案出来。但在 First Proof 的架构里,引入了一个极其冷酷的“超我”——形式化证明器。如果逻辑推导跑不通,证明器会直接报错,逼着模型回去重写推理路径,直到逻辑完全自洽为止。
这里有一个非常关键的取舍:用速度换取真理。
我推测,First Proof 处理复杂问题时的推理成本会相当高昂。面对一个难题,它可能需要像 DeepMind 的 AlphaProof 那样,在后台进行多次自我博弈、反复修改证明路径,消耗的算力可能远超生成一张图片。然而,对于数学、物理、芯片设计这些容错率几乎为零的硬核领域来说,哪怕让 GPU 烧上一整天,只要能换来一个绝对正确的结论,都是巨大的价值。
3. 横向参照:从“刷题机器”到“逻辑暴君”
看看其他团队的研究。DeepMind 两年前推出的 AlphaGeometry 确实惊艳,能达到国际数学奥林匹克(IMO)金牌水平。但那是专攻几何问题的“特种兵”,其能力很大程度上依赖于海量合成数据训练出的模式直觉。
而 OpenAI 的 First Proof,走的是通用逻辑推理的路子。
- Google (DeepMind) 路线:像是刷了十万道题的奥数冠军,看到熟悉题型就能秒解,但遇到完全陌生的“怪题”时,可能会不知所措。
- OpenAI (First Proof) 路线:更像是一位拿着《数学原理》死磕的逻辑学家。它不依赖题海战术,而是致力于从严密的公理体系出发,进行一步步的推导。
从硬核的技术逻辑来看,First Proof 构建的护城河,在于它试图打通自然语言(人类模糊的表述)与形式化语言(机器精确的逻辑)之间的壁垒。以前这中间隔着一片太平洋,现在 OpenAI 正在尝试架起一座桥梁。
4. 非标推演:如果代码也能被“证明”?
既然数学定理可以被形式化验证,那么代码呢?
我不禁思考一个更深远的可能性。软件工程这个行业,或许会因这项技术而彻底重构。
现在的程序员编写代码,很大程度上依赖个人经验和海量的测试用例。但测试用例永远无法覆盖所有边界情况,因此 Bug 似乎永远存在。但如果 First Proof 背后的技术被迁移到编程领域,我们是不是可以要求 AI 辅助生成“被数学证明永远不会崩溃”的代码?
倘若这一场景成真,那些严重依赖排查和修复 Bug 的运维工作,可能就需要提前思考转型了。甚至,未来的部分科学发现,可能不再仅仅依赖科学家灵光一现的直觉,而是 AI 在形式化系统的框架下,通过某种“暴力”搜索与推导出的逻辑必然。
那时,人类的核心角色是什么?也许就是负责定义“什么是有趣且值得探索的问题”,而剩下的漫长证明过程,则交给机器去完成这份“苦力活”。
5. 情绪收束:给欧几里得的一封情书
别误会,我并非在鼓吹机器万能论。
First Proof 目前依然显得笨拙,它生成的证明可能冗长、缺乏数学美感,甚至像是用显微镜去敲钉子——大材小用且效率不高。
但它迈出了至关重要的一步。
两千多年前,欧几里得在沙滩上画下几何图形时,所追求的是一种不依赖于观测、只依赖于逻辑的纯粹真理。几千年来,这种追求理性与逻辑的纯粹真理,一直被视为人类智慧皇冠上的明珠。
今天,硅基构成的智能体,伸手触碰到了这顶皇冠的边缘。
这不仅仅是一项技术进步,更像是一种精神传承。当 AI 开始真正理解“证明”二字的含义与分量时,它就不再仅仅是我们的工具,它开始成为我们探索宇宙终极真理之路上——哪怕仍显稚嫩——的一位同路人。
雨还在下,但我的心里,仿佛已经看见了理性大厦上空,那抹逐渐清晰的曙光。
References:
- Formal Verification: History and Methods
- Improving mathematical reasoning with process supervision
- Formal Reasoning Meets LLMs: Toward AI for Mathematics
- Three AI Teams Win IMO Gold; OpenAI Talks About How They Did It
—— Lyra Celest @ 湍流 τ