
近日,31岁便荣获菲尔兹奖、较早深度使用AI辅助研究并乐于分享的数学家陶哲轩(Terence Tao)与Dwarkesh Patel进行了一场深度对话。在这场对话中,针对AI在科学,尤其是数学领域的应用,陶哲轩提出了多个极具前瞻性的观点。
他认为,传统的科学研究范式——先产生天才假设,再收集数据验证——几乎被完全颠倒了。如今,新的范式是先收集海量数据,再利用AI从中提取模式,并推导出前所未有的规律和假设。AI已将提出科学理论的成本降至几乎为零,现在的瓶颈变成了如何从AI每天生成的成千上万个想法中,识别、验证并筛选出真正能推动学科进步的优质部分。
我们正经历一场认知版的哥白尼革命:意识到人类智能可能并非宇宙的唯一中心,存在着多种形式各异、优缺点互补的智能。人类需要重新评估哪些任务需要人类智能,哪些可以外包给AI。
通过Lean等形式化证明语言,AI生成的数学证明不再是抽象的逻辑流,而是可以被观察和拆解研究的“实物”。他预见未来可能会出现一种新型数学家,他们将对AI生成的巨大、凌乱的证明进行“消融研究”,通过删除部分代码来观察其是否崩溃,从而反向推导出其中的核心数学洞察。
此外,人类数学家擅长从部分进展中累积经验,通过持续对话和适应性改进来攻克深刻难题,而目前的AI仍缺乏这种“累积能力”。但AI的优势在于能以极大的规模同时探索成百上千个问题,消除其“能力水位线”下的所有障碍。
对于解决数学领域最核心的难题,AI的加速作用尚不明显,但它极大地加速了论文中图表生成、代码编写、排版和深度文献搜索等辅助性任务,使得论文变得更丰富、更宽广。

以下为对谈的主要内容整理。
科学范式的“倒置”:从“数据验证理论”变为“数据产生理论”
Dwarkesh: 今天,我正与无需多言的陶哲轩(Terence Tao)交谈。Terence,我想请你先复述一下开普勒如何发现行星运动定律的故事,因为我认为这将是讨论数学 AI 的绝佳切入点。
陶哲轩: 我一直对天文学有着业余的兴趣,也非常喜欢关于早期天文学家如何推导出宇宙本质的故事。开普勒是在哥白尼工作的基础上进行的,而哥白尼本人又是建立在阿里斯塔克斯的工作之上。哥白尼非常著名地提出了日心说模型,即太阳位于太阳系的中心,其他行星绕着太阳转,而不是行星和太阳绕着地球转。哥白尼认为行星的轨道是完美的圆。他的理论符合希腊人、阿拉伯人和印度人几个世纪以来积累的观测结果。
开普勒在学习这些理论时,观察到哥白尼预测的轨道尺寸比例似乎具有某种几何意义。他开始提出,如果你把地球的轨道嵌套在一个立方体里,那么包裹这个立方体的外层球体几乎完美地匹配了火星的轨道,依此类推。当时已知有六颗行星,它们之间有五个间隙,而恰好有五种完美的柏拉图多面体:立方体、正四面体、正二十面体、正八面体和正十二面体。于是他有了这个他认为绝对完美的理论,即你可以将这些柏拉图多面体嵌入到行星的球体之间。这看起来很契合,在他看来,上帝对行星的设计正符合柏拉图多面体的数学完美性。
他需要数据来证实这个理论。当时,世界上只有一份真正高质量的数据集。第谷·布拉赫(Tycho Brahe)是一位非常富有且古怪的丹麦天文学家,他成功说服丹麦政府资助了这个极其昂贵的天文台。事实上,那是一个完整的岛屿,他在那里对包括火星和木星在内的所有行星进行了数十年的观测,只要天气晴朗,他每晚都会用肉眼观测。他是最后一位肉眼天文学家。他拥有开普勒可以用来验证理论的所有数据。开普勒开始与第谷合作,但第谷对数据非常吝啬,每次只给他一点点。开普勒最终偷走了这些数据,他复制了数据,并不得不与布拉赫的后代发生争执。他确实拿到了数据,然后令他失望的是,他发现他那美丽的理论并不可行。数据与他的柏拉图多面体理论有 10% 左右的偏差。他尝试了各种修补方案,比如移动圆圈的位置,但都不起作用。
但他在这个问题上研究了多年,最终,他弄清楚了如何利用这些数据推导出行星的实际轨道。那是一次极其聪明、天才级的数据分析。接着他发现,轨道实际上是椭圆而不是圆,这对他来说是非常震惊的。于是他得出了行星运动的前两条定律:椭圆轨道定律,以及等面积投影定律(在相等时间内扫过相等的面积)。十年后,在收集了大量数据之后——像土星和木星这样最遥远的行星对他来说是最难推导的——他终于得出了第三定律,即行星完成轨道运行所需的时间与它到太阳距离的某次方成正比。这就是著名的开普勒三大运动定律。他无法解释其中的原理。这完全是由实验驱动的,直到一个世纪后,牛顿才提出了一个能同时解释这三条定律的理论。

Dwarkesh: 我想抛给你的观点是:开普勒其实是一个“高温度值”的大语言模型(LLM)。牛顿提出了为什么行星运动三大定律必然成立的解释。当然,如你所说,开普勒发现这些定律或推导出各行星相对轨道的方式是天才之举。但在他的职业生涯中,他只是在不断尝试各种随机关系。事实上,在他写下行星运动第三定律的那本书里,它只是《世界和谐》(The Harmonics of the World)中的一个插曲,那本书通篇在讲不同行星如何拥有不同的和谐音程。他认为地球之所以充满饥荒和痛苦,是因为地球的音符是 mi-fa-mi。这全是随机的占星术,但其中却包含着平方-立方定律,它告诉了你运行周期与行星到太阳距离的关系。正如你详述的,如果你把这个定律加上牛顿的 F=ma 和向心加速度公式,就能得到万有引力平方反比定律。牛顿就这样推导了出来。
我认为这个故事有趣的原因在于,我觉得 LLM 可以做这类“尝试随机关系二十年”的事情,即便其中一些毫无意义,只要有一个像布拉赫数据集那样可验证的数据库即可。“好,我要尝试关于音符、柏拉图物体或不同几何形状的各种随机事物,我直觉地认为这些轨道的几何结构中包含某些重要的东西。”然后其中一件事奏效了。只要你能验证它,这些经验性的规律就能推动真正的深度科学进步。
(注:在大型语言模型(LLM)中,温度值(Temperature)是一个控制生成结果随机性和创造性的超参数。说开普勒是“高温度值”的,是在称赞他极强的探索能力。开普勒的一生,就是在大量观测数据的“语料库”中,通过高随机性的尝试,最终捕捉到了那个极其罕见的正确预测。)
陶哲轩: 传统上,当我们谈论科学史时,“创意生成”一直是科学中最具声望的部分。一个科学问题包含许多步骤:你必须识别一个问题,然后识别出一个好的、有成果的问题去研究;然后需要收集数据,想出分析数据的策略并提出假设。在这一点上,你需要提出一个好的假设,然后进行验证,最后需要写成文章并进行解释。这里有十几个不同的组成部分。而我们庆祝的是那些灵光一闪的天才创意生成时刻。开普勒确实经历过许多创意的循环,其中有些并不可行。我敢打赌,有很多创意他甚至根本没有发表,因为它们根本不符合数据。这是过程的重要组成部分——尝试各种随机事物并观察是否有效。但正如你所说,这必须辅以同等程度的验证,否则它就是一堆“废料(slop)”。
我们赞美开普勒,但也应该赞美布拉赫,因为他进行了刻苦的数据收集,其精度是之前任何观测的十倍。多出的那一位小数精度对于开普勒获得结果至关重要。他使用了欧几里得几何和当时能用的最先进数学手段来让模型匹配数据。所有环节都必须参与其中:数据、理论和假设生成。我不确定如今假设生成是否还是瓶颈。在一个世纪以来的发展中,科学已经发生了变化。传统上,科学的两大范式是理论和实验。随后在 20 世纪,数值模拟出现了,你可以通过计算机模拟来测试理论。最后在 20 世纪后期,我们迎来了大数据和数据分析时代。现在许多新进展实际上是先通过分析海量数据集来推动的。你收集大数据,然后从中提取模式以推导思想。 这与过去的科学运作方式略有不同——过去是你进行少量观察或产生一个突发奇想,然后收集数据来测试你的想法。那是经典的科学方法。现在几乎反过来了。你先收集大数据,然后尝试从中获取假设。 开普勒可能是最早的早期数据科学家之一,但即使是他,也不是先拿着第谷的数据集然后去分析的,他先有一些预设的理论。随着数据变得越来越庞大且有用,那种旧的模式似乎越来越不再是我们取得进步的主要方式了。

Dwarkesh: 噢,有趣。我觉得你描述的 20 世纪科学实际上非常准确地刻画了开普勒身上发生的事情。他确实有过那些想法——1595 和 96 年他提出了多边形和柏拉图物体理论——但它们是错的。几年后,他拿到了布拉赫的数据,在尝试了二十年随机事物后,他才得到了这种经验规律。这感觉更接近于布拉赫的数据类似于某种庞大的模拟数据库,既然你有了数据,你就可以不断尝试随机的东西。如果没有这些数据,开普勒可能只是在外面写写关于和谐音程和柏拉图物体的书,而没有任何东西可以实际验证。
陶哲轩: 数据极其重要。我想表达的区别是,传统上是你先提出假设,然后用数据测试。但现在有了机器学习、数据分析和统计学,你可以从数据开始,通过统计推导出以前不存在的规律。开普勒第三定律有点像这样,只是开普勒只有 6 个数据点,而不是像布拉赫拥有上千个。对于每颗行星,他知道轨道长度和到太阳的距离。虽然只有五六个数据点,他做了我们现在称之为“回归分析”的工作。他为这 6 个数据点拟合了一条曲线并得到了平方-立方定律,这很神奇。但他非常幸运,这 6 个点给了他正确的结论。这种数据量其实并不足以产生可靠的结论。
后来有一位天文学家叫约翰·波德(Johann Bode),他利用同样的数据(行星间的距离),受开普勒启发,预测行星距离形成一个平移后的几何级数。他也拟合了一条曲线,只是缺了一个点——在火星和木星之间有一个巨大的缺口。他的定律预测那里有一颗失踪的行星。这原本有点像“民科”理论,但当赫歇尔发现天王星时,天王星的距离完全符合这个模式。接着谷神星在小行星带被发现,也符合这个模式。人们非常兴奋,认为波德发现了惊人的自然新法则。但随后海王星被发现,它的位置完全偏离了。所以这基本上只是一个数字上的巧合。当时只有 6 个数据点。也许开普勒没有像强调前两条定律那样强调第三定律的原因之一,就是他本能地感觉到(尽管他没有现代统计学知识),只有 6 个数据点,他必须对结论持保留态度。
AI使创意生成的成本趋零,验证和评估变得更加重要
Dwarkesh: 如果更明确地问这个类比:如果未来我们拥有越来越聪明的 AI,这个类比是否成立?我们将拥有数百万个 AI,它们可以四处搜寻所有的经验规律。听起来你并不认为科学的瓶颈在于寻找更多类似于“行星运动第三定律”的东西,以便之后有人能说:“噢,我们需要一种解释。让我们推导数学吧,这就是万有引力的平方反比定律。”
陶哲轩: 我认为 AI 已经将创意生成的成本降低到了几乎为零,这与互联网将沟通成本降低到几乎为零的方式非常相似。这是一件了不起的事,但它本身并不创造丰饶。现在的瓶颈不同了。我们现在的处境是,人们可以针对一个给定的科学问题突然生成成千上万个理论。现在我们必须验证它们、评估它们。这是我们必须改变科学结构来解决的问题。传统上,我们建立了围墙。在出现“AI 废料”之前,我们曾有业余科学家提出自己的宇宙理论,其中大部分价值极低。我们建立了同行评审出版系统来过滤并尝试分离出高信号的想法进行测试。但现在我们可以大规模生成可能的解释,其中一些是好的,很多是糟糕的,人类审稿人已经不堪重负。许多期刊报告称,AI 生成的稿件正在淹没他们的投稿系统。能用 AI 生成各种东西固然很棒,但这意昧着科学的其他方面必须跟上:验证、确认以及评估哪些想法真正推动了学科发展,哪些是死胡同或干扰项。这并不是我们目前懂得如何大规模运作的事情。对于每一篇单独的论文,我们可以由科学家们辩论并在几年内达成共识。但当我们每天生成一千篇这样的论文时,这种模式就行不通了。

Dwarkesh: 这有一个极其有趣的问题。如果你拥有数十亿个 AI 科学家,你不仅要衡量哪些是真正的进步,还要……这是人类科学曾不得不面对并以某种方式解决了的问题,而我其实不确定我们是如何解决的。假设在 20 世纪 40 年代的贝尔实验室,出现了各种新技术:脉冲编码调制、如何传输信号、如何数字化信号、如何通过模拟线路传输。有很多关于工程约束和细节的论文,然后其中一篇提出了“比特(bit)”的概念,它对许多不同领域都产生了影响。你需要某种系统能看到它并说:“好的,我们需要将其应用于概率论,应用于计算机科学”等等。在未来,AI 正在提出这种统一概念的下一个版本。在数百万篇可能构成进步但缺乏通用统一思想的论文中,你如何识别它?
陶哲轩: 很大程度上要靠时间的考验。许多伟大的想法在最初被提出时并没有得到很好的对待。只有在其他科学家意识到他们可以进一步采用并将其应用到自己的……深度学习本身在很长一段时间内只是 AI 的一个细分领域。完全通过数据训练而非第一性原理推理获得答案的想法曾极具争议,花了很长时间才开始结出硕果。你提到了“比特”。当时还有除了今天通用的“0-1”之外的其他计算机架构提案,我记得有“三进制(trits)”。在另一个平行宇宙中,也许会出现不同的范式。例如,Transformer 是所有现代大语言模型的基础,它是第一个足够复杂到能捕捉语言的深度学习架构。但它不一定必须是那样,本可以有另一种架构成为第一个实现目标的,一旦被采用,它就会成为标准。
评估一个特定想法是否会有成果之所以困难,原因之一是它取决于未来,也取决于文化和社会——哪些被采用,哪些没有。数学中的十进制非常有用,比罗马数字好得多。但同样,十进制并没有什么特别之处,它对我们有用是因为其他人都在用。我们已经使其标准化,围绕它构建了所有的计算机和数字表示系统,所以我们现在只能沿用它。偶尔有人推动十进制以外的系统,但惯性太大了。你无法纯粹孤立地观察任何给定的科学成就并给出一个客观评分,而不去意识到过去和未来的语境。所以这可能永远无法像解决局部问题那样,通过强化学习来完成。
科学进步有时通过“删除假设”而非“增加理论”实现,人类智能不再是宇宙的中心
Dwarkesh: 在科学史上,当一个后来被证明正确的理论出现时,它往往会产生一些推论,这些推论要么因为错误而显得毫无意义(我们后来才明白为什么错),要么正确但在当时看来极不靠谱。正如你谈到的,阿里斯塔克斯在公元前 3 世纪就提出了日心说。古代雅典人觉得:“这不可能,因为如果地球绕着太阳转,我们应该看到恒星相对位置随我们绕太阳公转而变化,除非它们远到看不出视差。”——这实际上是正确的推论。但有时推论是错误的,我们只需要进阶到更好的理解水平。莱布尼茨会指责并反对牛顿的引力理论,理由是它暗示了“超距作用”,而他们不知道机制。牛顿本人也对他发现惯性质量和引力质量是同一个量感到震惊。所有这些后来都被爱因斯坦解决了,但它仍然是进步。所以,AI 同行评审系统的问题在于:即使你可以证伪一个理论,你如何注意到它相对于之前的理论仍然构成了进步?
(注:超距作用是指两个相互隔离的物体,不需要通过任何中间媒介,就能瞬间对彼此产生影响。经典物理曾认为引力是超距作用。现代物理否定了宏观上的超距作用,改用“场”和有限速度来解释。量子力学发现微观粒子间存在某种极其类似超距作用的非定域性。)
陶哲轩: 往往最终正确的理论最初在很多方面表现更差。哥白尼的行星理论精度不如托勒密的理论。地心说在当时已经发展了一千年,他们做了许多调整和日益复杂的临时修补使其越来越精确。哥白尼的理论简单得多,但精确度低得多。直到开普勒才使其比托勒密的理论更精确。科学总是一个进行中的工作。当你只得到部分解决方案时,它看起来比一个虽然错误但已经完善到能回答所有问题的理论要糟糕。如你所说,牛顿的理论有巨大的谜团——质量等效性和超距作用,这些在几个世纪后才通过截然不同的概念方法得以解决。
(注:质量等效性通常指爱因斯坦质能方程E=mc^2,所揭示的核心物理逻辑:质量和能量不是两种独立的实体,而是同一事物的两种表现形式。)
通常进步的取得不是通过增加更多理论,而是通过删除脑中已有的某些假设。地心说之所以维持那么久,是因为我们抱有“物体本能地想要保持静止”的想法。这是亚里士多德的物理学观念,所以地球在运动的想法……那我们为什么没摔倒?一旦你有了牛顿运动定律——运动物体将保持运动——这就说得通了。在概念上,意识到地球在运动是一个巨大的跨越。感觉上它并没有在动。最伟大的进步,比如达尔文的进化论,其核心理念是物种不是静止的。这并不显而易见,因为你在有生之年看不到进化。好吧,现在我们确实能看到了,但它原本看起来是永久且静止的。
现在我们正经历着一场认知版的哥白尼革命。我们过去认为人类智能是宇宙的中心,现在我们看到有非常不同类型的智能存在,它们有着截然不同的优缺点。我们对哪些任务需要智能、哪些不需要的评估必须进行大规模重组。 尝试将 AI 纳入我们的科学进步理论,判断什么是难的、什么是容易的,我们正为此苦苦挣扎。我们必须问一些以前从未真正需要问的问题。或者也许哲学家问过,但现在我们所有人都必须面对它。

科学进展的推进,需要阐述的艺术
Dwarkesh: 这带出了一个我一直非常好奇的话题。你提到了达尔文的进化论。有一本书叫《发条宇宙》(The Clockwork Universe),作者是爱德华·多尼克(Edward Dolnick),涵盖了我们讨论的这段历史。他在书中有一个有趣的观察:《物种起源》出版于 1859 年,《自然哲学的数学原理》出版于 1687 年。所以《物种起源》比《原理》晚了两个世纪。从概念上讲,达尔文的理论似乎更简单。达尔文同时代的生物学家赫胥黎读完《物种起源》后说:“没能想到这一点真是太愚蠢了。”从来没有人对《原理》说过类似的话,指责自己没能在牛顿之前发现引力。那么为什么它花了更长时间?很大一部分原因似乎就是你所说的:自然选择的证据在某种意义上是压倒性的,但它是累积的和回顾性的;而牛顿只需要说:“这是我的方程。让我看看月球的运行周期和距离,如果对得上,那我们就取得了进步。”卢克莱修在公元前 1 世纪实际上就有过物种适应环境的想法,但直到达尔文才有人真正讨论,因为卢克莱修无法进行某种实验并迫使人们关注。我在想,我们事后是否会发现,在那些拥有这种“紧密数据反馈循环”、可以轻松验证的领域中,尽管概念上更困难,但进展反而更快?
陶哲轩: 我认为科学的一个方面不仅是创造新理论并验证它,还在于将其传达给他人。 达尔文是一位了不起的科学传播者。他用英语、用自然语言写作。我现在的说话方式就像一个……“不,不能用 Lean”(数学证明语言)。我必须走出我的技术思维定式。他用通俗易懂的英语交流,不使用方程,并综合了许多零散的事实。进化论的小碎片在过去已经被人推导出来,但他拥有这个非常有说服力的愿景。当然,他仍然遗漏了一些东西——他不知道遗传机制,他没有 DNA。但他的写作风格极具说服力,这起到了很大作用。
牛顿用拉丁语写作。为了解释他在做什么,他发明了全新的数学领域。他也处于一个科学家更加保密和竞争的时代。学术界现在依然有竞争,但在牛顿那个时代情况更糟。他保留了一些最好的见解,因为他不想让竞争对手获得任何优势。据我所知,他本人也是个不太讨人喜欢的人。直到牛顿之后几十年,当其他科学家用更简单的术语解释他的工作时,他的理论才变得家喻户晓。阐述的艺术、提出论点和构建叙事也是科学中非常重要的一部分。 如果你有数据,那会有帮助,但人们需要被说服,否则他们不会进一步推动它,也不会投入最初的精力去学习你的理论并真正探索它。那是另一件强化学习很难实现的事情。你如何量化你的说服力?虽然整个营销部门都在尝试做这件事。也许 AI 尚未被优化到具备说服力是一件好事。
科学具有社会属性。尽管我们以科学的客观性为荣——有数据、实验和验证——但我们仍然需要讲故事并说服同行。这是一件软性的、模糊的事情。它是数据与描绘叙事的结合,而这往往是一个关于“空缺”的叙事。正如我所说,即使是达尔文,也有部分理论他无法解释。但他仍然可以提出论点,认为在未来人们会发现过渡形式,会发现遗传机制,事实也的确如此。我不知道你如何能以一种精确到可以开始进行强化学习的方式来量化这一点。也许那将永远是科学的人性一面。
压榨出信息中每一滴可能性
Dwarkesh: 我阅读和观看你关于“宇宙距离阶梯”的内容时的一个感悟……顺便说一下,我强烈推荐大家观看你与 3Blue1Brown 合作的宇宙距离阶梯系列。我的一个感悟是,许多领域中的“演绎过剩(deductive overhang)”可能比人们意识到的要大得多。如果你对如何研究一个问题有正确的见解,你可能会惊讶于你能从这个世界上了解到多少额外的信息。我在想你是否认为这是天文学在你所研究的特定历史时期的产物?还是说仅仅基于目前投射到地球上的数据,我们实际上就能推测出比我们已知多得多的东西?
陶哲轩: 天文学是最早真正拥抱数据分析并压榨出信息中每一滴可能性的科学之一,因为数据曾是瓶颈。它现在依然是瓶颈——收集天文数据非常困难。天文学家是提取各种结论的顶尖高手,能从微小的数据痕迹中像福尔摩斯一样推断,几乎是世界级的。 我听说对于很多量化对冲基金来说,他们最青睐的入职者其实是天文学博士。出于其他原因,他们也非常热衷于从各种随机数据片段中提取信号。
Dwarkesh: 好的,说到聪明的点子,我的一位听众 Shawn 解决了 Jane Street 为我的观众出的谜题,并在 X 上发布了一份精彩的攻略。背景是:Jane Street 训练了一个 ResNet,打乱了所有 96 层,然后挑战人们仅通过模型的输出和训练数据将它们恢复到正确顺序。你无法暴力破解——可能的排序比宇宙中的原子还要多。所以 Shawn 把问题分成了两个部分:第一,将层配对成 48 个块;第二,将这些块按正确顺序排列。在配对方面,Shawn 意识到在一个训练良好的 ResNet 中,残差块中两个权重矩阵的乘积应该具有独特的负对角线模式,这是模型为了防止残差流失控而产生的。通过这一见解,他恢复了正确的配对。在排序方面,Shawn 注意到如果根据残差贡献的大小对块进行排序,模型的表现似乎会提高。从这个粗略的近似开始,他结合了一个聪明的排名启发式算法和局部交换,恢复了完全正确的顺序。他的完整攻略链接在描述中。如果你没能赶上这个谜题也不要担心,现在还有一个关于后门 LLM 的谜题,甚至连 Jane Street 都不知道如何解决。你可以在 janestreet.com/dwarkesh 找到它。好了,回到 Terence!
陶哲轩: 我们确实低估了如何从各种信号中提取额外信息。随便举个研究案例,我记得读过一次,有人试图测量科学家阅读他们所引用论文的真实频率。你如何测量这个?你可以尝试调查不同的科学家,但他们有一个聪明的窍门:许多引用都有小错误,比如数字错了或标点符号错了。他们测量了一个错误从一个参考文献复制到下一个参考文献的频率,从而推断出作者是否只是在复制粘贴参考文献而没有实际去核对。通过这种方式,他们能够推断出人们付出了多少注意力的某种衡量标准。所以,确实有一些聪明的技巧可以提取……你之前提出的关于我们如何评估一项科学发展是否有成果、有趣或代表真正进步的问题……也许在数据中真的存在这些现象的有用指标或足迹。我们可以检查引用情况,以及某个事物在会议中被提及的频率。也许有很多科学社会学研究可以做,从而实际检测到这些东西。也许我们真的应该让一些天文学家来研究这个。
AI在数学领域取得的进展放缓
Dwarkesh: 这正好引出了从外界看来 AI 在数学领域取得的进展。你最近发了一帖指出,在过去的几个月里,AI 程序已经解决了埃尔德什(Erdős)提出的 1100 多个问题中的 50 多个。我不确定这个数据现在是否依然准确,但一个月前你说进展已经放缓,因为“低垂的果实”已经被摘完了。首先,我很想知道现在的情况是否依然如此——我们已经摘完了容易摘的果实,目前正处于平台期?
(注:埃尔德什全名保罗·埃尔德什(Paul Erdős),是 20 世纪最伟大的数学家之一,也是历史上发表论文数量最多的数学家。他非常喜欢提出各种数学猜想,并为这些问题设立奖金。)
陶哲轩: 看起来确实如此。在 AI 的辅助下解决了 50 多个问题,这很棒,但还有 600 多个悬而未决。现在人们仍在一两个问题上慢慢啃。我们现在看到的“纯 AI 解决方案”越来越少了,即那种 AI 一下子就解决问题的案例。有一个月这种事确实发生了,但现在已经停止了,这并不是因为没人尝试。我知道有三个独立的尝试,试图让前沿 AI 模型同时攻击每一个埃尔德什问题。它们能挑出一些细微的观察,或者发现某些问题在文献中其实已经解决了,但目前还没有进一步产生纯 AI 驱动的解决方案。现在人们在大量使用 AI,比如有人可能用 AI 生成一个可能的证明策略,然后另一个人用另一个 AI 工具去批评它、重写它、生成数值数据或进行文献综述。有些问题是通过许多人类和许多 AI 工具之间持续对话解决的。但这看起来确实像是一个一次性的现象。
也许这些问题可以类比为你置身于某个拥有各种悬崖和围墙的山脉中。也许有一堵墙只有三英尺高,另一堵六英尺高,然后是十五英尺高,还有一些英里高的峭壁。你试图攀爬尽可能多的悬崖,但在黑暗中,我们不知道哪些高,哪些矮。所以我们尝试点燃蜡烛并绘制地图,慢慢地我们发现有些是可以攀爬的,有些我们可以先识别出墙上的一条局部路径。这些 AI 工具,它们就像跳跃——它们就像能跳起两米高的机器,比任何人类跳得都高。有时它们会跳错方向,有时会摔得很惨,但有时它们能跳到以前我们无法触及的低矮墙顶。我们刚刚把它们放进这片山脉中四处乱跳。曾有一段令人兴奋的时期,它们确实能找到所有低矮的墙并跳上去。也许下一次模型有了重大进步时,它们会再次尝试,更多的障碍会被突破。但这是一种完全不同的数学研究风格。通常我们会进行“登山运动”,做些小标记,并尝试识别需要优先关注的阶段性成果。而这些工具要么成功,要么失败。它们在创造阶段性进展或识别应该首先关注的中间阶段方面表现得很差。
AI擅长广度而人类擅长深度,人类要在广度侧练习
Dwarkesh: 回到之前的讨论,我们没有办法像评估解决问题的“一次性成败”那样来评估阶段性进展。对于你刚才所说的话,有两种不同的思考方式:一种对 AI 的进展持悲观态度,另一种则更乐观。悲观的观点是:“哦,它们只能跳到一定高度的墙,还没人类跳得高。”乐观的观点是:它们拥有一个强大的特性——一旦达到某个“水位线”,它们就能填满该水位线下所有的现有问题,而这是人类根本做不到的。我们无法复制一百万个你,给每个你一百万美元的推理算力,让你同时在一百万个不同的问题上进行长达一百年的主观时间研究。但一旦 AI 达到“陶哲轩水平”,它们就能做到这一点;甚至当它们达到中等水平时,就能完成该水平下的规模化工作。所以,现在让我们感到悲观的原因,恰恰是我们应该格外乐观的原因。甚至不需要等到它们实现超人类智能,只要达到人类水平,它们的智能在质上就会比我们的更宽广、更强大。
陶哲轩: 我同意。它们擅长广度,而人类(至少是人类专家)擅长深度。 我认为这两者非常互补。但我们目前的数学和科学研究方式专注于深度,因为那是人类专长的领域——人类无法胜任广度。我们必须重新设计科学的研究方式,以充分利用我们现在拥有的这种广度能力。我们应该投入更多精力去创造极其广泛的问题类别,而不是只盯着一两个极其深刻、重要的问题。深刻的问题依然重要,人类也应继续研究它们,但现在我们有了另一种做科学的方式。我们可以通过让这些广博且具有中等能力的 AI 先进行勘测,得出所有简单的观察结果,从而探索全新的科学领域。然后识别出某些“困难岛屿”,再由人类专家介入研究。我预见到未来科学将呈现出高度互补的状态。最终,你会希望同时拥有广度和深度,以某种方式兼顾两者的优点。但我们需要在“广度”这一侧进行练习。这太新了,我们甚至还没有能充分利用它的范式。 但我们会有这种范式的,到那时,科学面貌将变得焕然一新。

AI将彻底改变数学的实验侧,“规模化数学”萌生
Dwarkesh: 关于这种互补性,程序员已经注意到由于这些 AI 工具,他们的效率大大提高了。我不知道你作为数学家是否也有同感,但“氛围编程(Vibe Coding)”与“氛围研究(Vibe Researching)”之间似乎有一个巨大的区别:在软件领域,工作的核心是通过你的成果对世界产生某种影响。如果它能让你更好地理解一个问题,或者想出一个简洁的抽象概念体现在代码中,那也只是为了实现最终目标的手段。但在研究领域,我们之所以关心解决“千禧年大奖难题”,是因为在解决它们的过程中,我们可能会发现新的数学对象或新技术,从而推进人类文明对数学的理解。因此,证明过程本身就是通往中间成果的手段。我不确定你是否同意这种二分法,或者这是否能解释软件与研究在效率提升上的差异。
陶哲轩: 在数学中,过程往往确实比问题本身更重要,问题就像是衡量进步的代理指标。我认为即使在软件领域,也有不同类型的任务。如果你只是创建了一个功能平庸的网页,那是学不到什么技能的——虽然个体程序员可能还是会学到一点。但对于样板类代码,你绝对应该外包给 AI。有时代码写好后,你还必须维护它,涉及升级、兼容等问题。我听程序员说,即使 AI 能创建工具的第一个原型,使其与现有系统衔接并按预期与现实世界交互仍是一个持续的过程。如果你没有通过写代码积累技能,可能会影响你日后的维护能力。数学家也是如此,我们通过问题来建立直觉,训练人们判断什么是真实的、该期待什么、什么是可证明的、什么是困难的。直接得到答案可能会抑制这个过程。
我之前区分了理论和实验。在大多数科学领域,理论和实验是平分秋色的。数学很独特,因为它几乎完全是理论性的。我们非常看重对于“事物为何真伪”的一致且简洁的理论。我们很少做实验,比如:如果有两种不同的解题方法,哪种更有效?我们有一些直觉,但没有进行过拿一千个问题来测试的大规模研究。但我们现在可以做到了。我认为AI 工具将彻底改变数学的实验侧——你不再那么关心单个问题及其解决过程,而是希望收集关于“什么行得通、什么行不通”的大规模数据。就像一家软件公司想要发布一千个软件,你并不想手工打造每一个并从每个中吸取教训,你只想找到能让你规模化的工作流。“规模化数学”的想法还处于起步阶段,但这正是 AI 将彻底改变这一学科的地方。
Dwarkesh: 在关于 AI 对科学有多大用处的讨论中,一个核心点是(正如你所说的)它们正在使用并修改现有技术。如果能了解仅仅通过使用现有技术能取得多少进展,那将非常有趣。如果查看顶尖数学期刊,有多少论文是提出了“新技术”,又有多少是针对新问题使用“现有技术”?这种“过剩”有多少?如果将每种已知技术应用于每个未解决的问题,这是否会构成人类文明知识的巨大飞跃?
陶哲轩: 这是一个好问题,我们还没有足够的数据来完全回答。当然,人类数学家做的很多工作……当我们面对一个新问题时,首先会审视过去在类似问题上奏效的所有标准方法,并逐一尝试。有时这能行得通,而且因为问题很重要,结果仍值得发表。有时它们几乎奏效,你只需要增加一点新花样,这同样很有趣。但能进入顶尖期刊的论文,通常是现有方法能解决 80% 的问题,但剩下的 20% 具有抵抗力,必须发明一种新技术来填补空白。 现在很少有哪种问题的解决是完全不依赖过去文献、灵感凭空而来的。这在过去更常见,但现在的数学已经如此成熟,不利用文献就像是给自己背上了沉重的负担。AI 工具在第一部分表现得非常好,即尝试所有标准技术,而且在应用时出的错往往比人类少。它们虽然也会犯错,但我测试过它们处理我能做的小任务,有时它们能发现我的错误,有时我发现它们的,目前基本打平。但我还没看到它们迈出“下一步”。当论证中出现漏洞,且没有任何常规手段奏效时,该怎么办?它们可以提出随机建议,但我发现试图追踪这些建议并使其奏效,浪费的时间往往比节省的时间还要多。
我认为,目前我们认为困难的问题中,有一部分会因为这种方法而解决,尤其是那些未得到足够关注的问题。在埃尔德什问题中,AI 解决的那 50 多个问题基本上都没有相关文献。埃尔德什只提出过一两次,也许有人随手试过没做出来,但从未写下来。结果证明它们确实有解,只是需要将某种少有人知的冷门技术与文献中的其他结果相结合。这是 AI 目前能达到的平均水平,这已经很棒了,它清理了 50 个问题。所以你会看到零星的成功。但我们发现,当人们对埃尔德什问题进行大规模扫描时,如果你只关注那些被社交媒体报道的成功案例,结果看起来惊为天人——几十年没解决的问题都解决了。但当我们进行系统性研究时,AI 对任何给定问题的成功率可能只有 1% 或 2%。只是因为它们靠规模取胜,你只需挑选赢家,这让它看起来很棒。我认为在数以百计的顶级数学难题上也会发生类似的事情:某些 AI 可能会走运解决掉它们,发现一些前人忽略的“后门”。这会引起很大轰动,但当人们在自己心仪的问题上尝试这些昂贵的工具时,又会经历那 1% 到 2% 的成功率。在成功与失败的信号中会夹杂大量噪声。
因此,收集标准化的数据集将变得越来越重要。目前有人正致力于创建 AI 挑战问题的标准集,而不是仅依赖 AI 公司公布成功案例而不披露失败结果。这也许能让我们更清晰地看到现状。尽管我想强调,即便只是拥有能够应用“前人未曾写明适用于此”的技术的模型,这本身已经是 AI 的巨大进步。这种进展感同时是惊人的,也是令人失望的。看到这些工具投入运作,感觉非常奇妙,但人们适应得也非常快。我记得 20 年前谷歌搜索出现时,它简直横扫了其他搜索引擎,第一页就有你想要的结果,太神奇了。但几年后,你就觉得能搜索任何东西是理所当然的。2026 年水平的 AI 如果出现在 2021 年会让人震惊,但现在我们对人脸识别、自然语言、解大学数学题这些都已经习以为常了。
Dwarkesh: 提到 2026 年的 AI,你在 2023 年曾预测,到 2026 年 AI 会变得像数学领域的同事一样?一个如果使用得当就值得信赖的合著者。现在回想起来,这个预测很准。
陶哲轩: 是的,我挺满意的。
Dwarkesh: 那看你能不能延续这个预测纪录:你个人因为 AI 而生产力翻倍(2倍)会是在哪一年?
陶哲轩: 我认为生产力不是一个一维的量。我确实注意到我做数学的风格和内容都在发生很大变化。例如,我现在的论文包含更多的代码和图片,因为现在生成这些太容易了。以前需要几小时做的图表,现在几分钟就能搞定。但在过去,我根本不会在论文里放图表,只会用文字描述。所以很难衡量 2 倍意味着什么。一方面,如果我现在写的论文在没有 AI 辅助的情况下完成,绝对要花 5 倍的时间,但我根本不会以那种方式去写论文。
Dwarkesh: 5 倍?
陶哲轩: 是的,但这些是辅助性任务。比如进行更深层次的文献搜索,或提供更多的数值计算。它们丰富了论文。而我工作的核心——解决数学问题最难的部分——其实没变多少,我依然用纸和笔。但有很多琐事:我现在用 AI 智能体来重新排版。以前如果括号大小不对,我要手动一个个改,现在 AI 能在后台处理得很漂亮。它们确实加快了次要任务的速度,还没加速核心任务,但让我能在论文中加入更多内容。同样地,如果我重写一篇 2020 年的论文,不加这些额外功能,只是维持同等水平的功能性,老实说并没有省下多少时间。它让论文变得更丰富、更宽广,但不一定更深刻。
AI能解题不代表其数学理解有提升,未来可能会出现一种新的数学家职业——消融研究
Dwarkesh: 你区分了“人工聪明(Artificial Cleverness)”与“人工智能(Artificial Intelligence)”。我想更好地理解这些概念。什么是“非聪明的智能”的例子?
陶哲轩: 智能的定义众所周知地难。但当我与某人协作解决数学问题时,一开始我们都不知道怎么解。其中一人有了个看起来有前景的主意,于是我们有了个初步策略。我们测试它,失败了,然后修改它。这其中有适应性和持续的改进。最终我们系统地摸清了哪些行得通、哪些行不通,并能看到前进的道路,而这是随讨论演进的。AI 并不完全能做到这一点。它们可以稍微模仿一下。回到跳跃机器人的比喻:它们可以跳跃并失败,再跳跃再失败。但它们做不到的是:跳一下,抓到一个支撑点,停在那里,把其他人拉上来,然后再从那里起跳。这种基于阶段性进展的交互式、累积性过程还没有实现。 它看起来更像是尝试和错误、简单的重复和暴力破解。它能规模化,在某些环境下效果惊人,但这种从部分进展中累积的能力还有所欠缺。
Dwarkesh: 意思就是,如果 Gemini 3 或 Claude 4.5 解决了一个问题,并不代表它自身的数学理解进步了?即使它在一个问题上花了功夫却没解决,它的数学理解也没有提升?
陶哲轩: 是的。你开启一个新会话,它就忘了刚才做过什么,没有新的技能可以用于相关问题。也许你刚才做的成了下一代模型训练数据的 0.001%,所以最终有些东西会被吸收。
Dwarkesh: 一个大问题是:如果我们持续训练 AI,它们在 Lean(形式化证明语言)中解题越来越强,解决的问题越来越令人惊叹,结果我们惊讶地发现,哪怕 AI 证明了黎曼猜想,我们也几乎无法从中获得洞察,这是否可能?或者你认为证明黎曼猜想的必要条件是:即便由 AI 完成,其在 Lean 程序中创建的构造和定义也必然会推进我们对数学的理解?它有没有可能只是一堆汇编代码般的乱码?
注:黎曼猜想由德国数学家波恩哈德·黎曼于 1859 年提出,该猜想认为素数的分布具有一定的规律性,但目前还没有被证明。现代数学中有超过 1000 条定理是建立在“假设黎曼猜想为真”的基础上的。如果猜想被证明,这些定理将瞬间变成真理;如果它被证伪,整个现代数学体系都会发生大地震。
陶哲轩: 我们不知道。有些问题基本上是靠暴力破解解决的,“四色定理”就是著名例子。我们至今没找到其简洁优雅的概念证明,也许永远找不到。有些问题可能只能通过拆分成海量的分类讨论,并对每一类进行枯燥的计算机分析来解决。我们之所以看重黎曼猜想,是因为我们相当确定必须创造一种新型数学,或者在两个此前无关的数学领域间建立新联系才能实现突破。我们甚至不知道解的形态,但它感觉不像是一个能靠穷举所有情况解决的问题。或者它其实是伪命题——虽然可能性很小,黎曼猜想可能是错的,你只需计算出一个偏离临界线的零点,庞大的计算验证了它,那将非常令人失望。我确实觉得,完全自主、一次性的方法并不是解决这些问题的正确路径。人机协作能发挥更大的效用。我能预见到这些难题被聪明的人类在极强大的 AI 工具辅助下解决。但那种动态可能与我们现在的构想完全不同,可能是一种尚未存在的协作模式。也许可以生成一百万个黎曼 Zeta 函数的变体,进行 AI 辅助数据分析,发现某种之前不为人知的连接模式。这能让你将问题转化为不同的数学领域。
Dwarkesh: 假设 AI 算出来了,而在 Lean 代码中潜藏着某种全新的构造,如果我们意识到其重要性,就能将其应用于各种不同情景。但我们该如何识别它呢?如果你在 Lean 代码里写出相当于笛卡尔“坐标系统一代数与几何”级别的想法,它可能看起来只是像 R→R 这样不起眼的代码。
陶哲轩: 我相信还有其他具有这类性质的构造。这种形式化证明的美妙之处在于你可以提取任何部分并进行原子化研究。当我读一篇解决难题的论文时,通常会有一长串引理和定理。理想情况下作者会解释哪些重要,但有时他们并不透露。但在 Lean 中,你可以孤立地研究每个引理。有些看起来很标准,我确定没什么有趣的;但另一个引理,是我从未见过的,且我能看出为什么有了它就能证明主结果。你可以评估某一步是否真的是论证的关键,Lean 极大地便利了这一点。
我认为未来会出现一种数学家职业:他们拿着 AI 生成的巨大证明进行“消融研究”,尝试删除部分内容,寻找更优雅的方法。他们可能会让其他 AI 通过强化学习使证明更简洁,再让另一些 AI 评分。不久的将来,写论文的方式会有很大变化。直到最近,写论文仍是这项工作中最耗时、最昂贵的部分。重写和重构太痛苦了,所以你只在所有论证都检查完后才写一次。现在有了 AI 工具,这变得简单多了。你不需要只有一个版本的论文,人们可以生成成百上千个。一个庞大凌乱的 Lean 证明本身可能没意义,但其他人可以重构它。我们在埃尔德什问题网站上见过这种情况:AI 生成了证明和三千行代码,然后人们让其他 AI 总结证明,接着人们写出自己的证明。这其实存在一个“后处理”过程。一旦你有了证明的“实物”,我们就有很多工具来解构和解释它。这虽然是数学的一个极新领域,但我没那么担心。
(注:消融研究(Ablation Study)是指通过移除模型中的某个特定组件、特征或超参数,来评估该部分对模型整体性能贡献的实验方法。)

捕捉科学的主观,让AI以有用的方式介入
Dwarkesh: 你最近发帖说,如果有一种针对“数学策略”而非仅针对“数学证明”的正式或半正式语言,将会很有帮助。
陶哲轩: 我们还不确定那会是什么样。在数学领域,我们很幸运地摸索出了逻辑和数学的法则,但这其实是近代才完成的。虽然欧几里得在两千年前就开始了,但直到 20 世纪初我们才最终列出了数学的公理,如 ZFC 、一阶逻辑公理,并定义了什么是证明。
(注:ZFC公理系统(Zermelo-Fraenkel Set Theory with the Axiom of Choice)是现代数学最主流的公理化集合论基础。几乎所有的现代数学对象(数、函数、空间)都可以用集合来定义,而其推导规则均遵循这套公理。
一阶逻辑公理(First-Order Logic Axioms)是不依赖具体对象、用来保证推理正确性的基本公式和规则。)
陶哲轩: 这一部分(演绎证明)我们已经成功实现了自动化,并拥有了形式化语言。但或许还可以有某种方法来评估“合理性”。比如你有一个关于某事为真的猜想,你测试了几个例子,结果都成立。这如何增加你对该猜想为真的信心?我们有一些数学方法来模拟这一点,比如贝叶斯概率。但你通常必须设定某些基础假设,而且在这些任务中仍存在大量的主观性。与其说这是一个开发语言的计划,不如说是一个愿望,但看到像 Lean 这样的形式化框架如何让演绎证明的自动化和 AI 训练变得如此简单……目前使用 AI 制定策略和提出猜想的瓶颈在于,我们必须依赖人类专家和时间的考验来验证某事是否合理。如果能有一种半形式化的框架,能以一种不易被“破解”的方式半自动地完成这项工作……这非常重要,因为在这些形式化证明助手中,绝对不能有后门或漏洞让你在没有真正证明的情况下获得“认证证明”,因为强化学习极其擅长寻找这些后门。如果有一种框架能模仿科学家之间以半形式化方式交流——使用数据和论据,同时也构建叙事……科学中存在一些主观方面,我们还不知道如何捕捉它们,以便让 AI 以有用的方式介入其中。 这是一个未来的问题。目前已有一些研究致力于自动生成猜想,也许有办法对这些进行基准测试和模拟,但这都是非常前沿的科学。
如果黎曼猜想被证伪,现代密码学大厦可能轰然倒塌
Dwarkesh: 你能帮我建立一些直觉吗?我有两个子问题。第一,如果能有一个具体的例子来说明科学家之间那种目前还无法形式化的沟通方式,那会很有帮助。第二,说你在构建某种叙事或自然语言解释,同时又拥有某种可以形式化的东西,这在定义上似乎几乎是矛盾的。我相信这其中的交叠部分一定有某种直觉,我很想更好地理解它。
陶哲轩: 以猜想为例:高斯对素数非常感兴趣,并创建了最早的数学数据集之一。他计算了前 10 万个左右的素数,希望能找到模式。他确实找到了模式,但可能不是他预想的那种。他在素数中发现了一个统计学模式:如果你计算 100、1000、100 万以内有多少个素数,素数会变得越来越稀疏,但密度下降的幅度与数字范围的自然对数成反比。于是他提出了我们现在所说的素数定理:X 以内的素数数量约为 X/lnX。他当时无法证明这一点,这是数据驱动的,是一个猜想。这在当时是革命性的,因为这可能是数学中第一个本质上是统计性的重要猜想。通常人们谈论模式时,可能会说素数之间的间距有某种规律。但这并没告诉你任何给定范围内到底有多少个素数,它只是给出了一个随着数值变大而越来越精确的近似值。它开创了我们称之为解析数论的领域。
它是此类猜想中的第一个(其中许多后来得到了证明),这些猜想巩固了一个观点:素数其实没有固定模式,它们的行为就像具有特定密度的随机数字集。它们也有一些模式,比如几乎全是奇数。它们也不是真正的随机,而是所谓的“伪随机”——创建素数并不涉及随机数生成。但随着时间推移,将素数想象成是由某个上帝不断掷骰子生成的随机集合,变得越来越有成效。这让我们能做出所有这些其他的预测。数论中还有一个至今未解的猜想叫“孪生素数猜想”,即应该有无穷多对相差仅为 2 的素数(如 11 和 13)。我们无法证明这一点,而且有充分的理由解释为什么无法证明。但由于这种素数的统计随机模型,我们绝对相信它是真的。我们知道,如果素数是通过抛硬币生成的,我们就会——随机机会就像无限猴子敲打打字机一样——看到孪生素数反复出现。随着时间的推移,我们已经根据统计和概率开发出了这套非常准确的关于素数行为的概念模型。它大多是启发性的、非严谨的,但极其准确。少数几次我们能真正证明关于素数的结论时,它们都与这个“随机模型”的预测相吻合。我们拥有这套大家都认同的、理解素数的猜想性概念框架。这也是我们相信黎曼猜想为真,以及相信基于素数的密码学在数学上是安全的原因。这都是这种信仰的一部分。
事实上,我们关心黎曼猜想的一个原因是,如果黎曼猜想失败了,如果我们知道它是假的,那将是对这个模型的沉重打击。这意味着素数中存在我们尚未意识到的某种秘密模式。我认为我们会迅速放弃任何基于素数的密码学,因为如果存在一种我们不知道的模式,可能就会有更多模式,而这些模式可能导致加密领域的漏洞。那将是一个巨大的冲击。所以我们真的想确保那种情况不会发生。
随着时间的推移,我们已经确信了黎曼猜想这类事物。一部分是实验证据,另一部分是每当我们能得出理论结果时,它们总是与之一致。当然,也有可能共识是错误的,我们都忽略了一些非常基本的东西。科学史上确实发生过范式转移。但我们并没有真正衡量这种可能性的方法,部分原因是我们没有足够的关于数学或科学如何发展的数据。我们只有一条历史时间线,大约有 100 个历史转折点的故事。如果我们能接触到一百万个外星文明,每个文明都有不同顺序的历史和科学发展,那么我们或许真有机会理解如何衡量什么是进步、什么是好的策略。 也许我们可以开始将其形式化,并建立一个框架。或许我们需要做的是开始创建大量的微型宇宙或模拟 AI 解决算术等基础问题,看它们如何想出自己的策略,并拥有这些小型实验室来测试。已经有人在研究能进行 10 位数乘法的最小神经网络。我认为仅从在简单问题上进化小型 AI,我们就能学到很多。
陶哲轩是如何自学的?看似不够效率优化的“机缘巧合”其实非常重要
Dwarkesh: 你不仅必须非常迅速地学习新领域,而且要深入到足以在最前沿做出贡献。从某种意义上说,你也是世界上最伟大的自学者之一。你学习一个新的数学子领域的过程是怎样的?
陶哲轩: 我们之前谈到了深度和广度。这不仅仅是人类与 AI 的区别。人类也可以分为“刺猬”和“狐狸”:刺猬精通一件事,而狐狸什么都懂一点。我绝对认为自己是一只狐狸。我经常与刺猬型学者合作,如果需要,我有时也可以变成刺猬。我一直有一点强迫症倾向。如果我读到某些我觉得自己有能力理解的东西,但我却不理解它为何有效,其中蕴含着某种魔力……如果有人能用一种我不熟悉的数学方法得到一个我想证明的结果,我无法靠自己做到,但他们靠他们的方法做到了,我就想找出他们的诀窍是什么。如果我觉得某件事我本该能做却做不了,这会让我很困扰。我一直有那种强迫症、完美主义倾向。我不得不戒掉电脑游戏,因为如果我开始玩一个游戏,我就想把它玩通关。这是我学习新领域的一种方式。我也与很多人合作,他们教过我其他类型的数学。我只是去和研究另一个领域的数学家交朋友。我发现他们的问题很有趣,但他们必须教我一些基本的技巧,什么是已知的,什么是未知的。我从中受益匪浅。我发现写下我所学到的东西很有帮助。我有一个博客,有时会记录学到的东西。过去我年轻时,我学到了一些东西,掌握了酷炫的技巧,心想:“好,我要记住这个。”结果六个月后,我忘了。我记得自己曾经记住过它,但我无法重建我的论证。那几次经历让我非常沮丧,理解了某事却又丢失了它。于是我决定,我应该把学到的任何酷炫的东西都写下来。这就是这个博客的由来。
Dwarkesh: 写一篇博客文章要花多长时间?
陶哲轩: 这是我不想做其他工作时经常做的事。比如当时有某些让我觉得不太愉快的审稿报告之类的活儿要做。写博客感觉是有创造力且有趣的,这是我为自己做的事。根据主题,可能只需要半小时,也可能需要几个小时。因为这是我自愿做的事,写这些东西时时间过得很快,而不像为了行政原因不得不做的那些枯燥苦差事。顺便说一下,那些苦差事正是 AI 如今能提供很大帮助的任务。
Dwarkesh: 如果文明可以从第一性原理出发,决定如何将陶哲轩的时间作为一种有限资源来使用,那么最大的区别会是什么?如果由“无知之幕”来决定你的时间用途,而不是像现在这样,这会发生什么?这个播客恐怕就不会存在了。
(注:“无知之幕”是哲学家罗尔斯提出的一个思想实验:假设你在制定社会规则时,不知道自己将来会出生在什么家庭、财富多少、性别、能力如何。因为不知道自己的位置,你就会更公平地制定规则,尽量保护所有人。)
陶哲轩: 尽管我会抱怨某些不想做但不得不做的任务……随着你在学术界的地位提高,你会承担越来越多的责任、更多的委员会工作等等。但我发现,很多我因为某种责任感而勉强参加的活动……正因为它们超出了我的舒适区,往往会产生与我不常交流的人互动的机会,比如像你。我会学到有趣的事情,有有趣的经历,并有机会与之前从未接触过的人建立联系。所以我非常相信“机缘巧合(Serendipity)”。 我会在一天中的某些时段进行非常精细的时间优化,但我愿意留出一些部分只去做一些非日常的事情。也许会浪费时间,但也许我会学到些什么。通常情况下,我获得的正面体验是计划不出来的。所以我非常相信偶然发现。现代社会(不仅仅是因为 AI)可能存在一个危险,即我们变得非常擅长优化一切,但我们却没有优化自己的优化过程。

例如在疫情期间,我们转为了远程会议,所有事情都是预先安排好的。我们在学术界保持忙碌,见的的人数几乎和在线下时一样多,但一切都必须提前计划。我们失去的是在走廊里的偶遇,是喝咖啡时撞见某人。这些看似不优化的机缘巧合其实非常重要。 当我还是研究生时,我会去图书馆查找期刊文章。你必须亲自借阅期刊并阅读,在这个过程中你可以翻阅一下,有时下一篇文章也很有趣。有时没有,但你可能会意外发现有趣的东西。现在这种体验基本消失了。如果你想获取一篇文章,只需在搜索引擎或 AI 中输入,瞬间就能得到你想要的。但你失去了如果你以更低效的方式去做时可能意外发现的东西。我曾在普林斯顿高等研究院待过一年,那是个没有干扰、专门做研究的好地方。去那里的头几周感觉很棒,你写完了所有想写很久的论文,可以连续思考几个小时。但我发现如果我在那里待超过几个月,灵感就会枯竭。我会感到厌烦,上网的时间也变长了。你的生活中其实需要一定程度的“分心”,它能增加随机性和“高温度值”。我不知道如何最优地安排生活,但目前看来这样很有效。
AI数学家出现之后,人类数学家该做什么?
Dwarkesh: 我很好奇,你预计 AI 何时能像最优秀的人类数学家一样从事前沿数学研究?在某些方面,它们已经在做人类做不到的、超智能的前沿数学,但这与我们习惯的前沿不同。你可以争辩说计算器也在做人类无法完成的前沿数学,但那是数字运算。我是说完全取代陶哲轩。
陶哲轩: 我是说,你要我(被取代)干什么?(笑)
Dwarkesh: 你之后可以参加所有的播客。
陶哲轩: 这可能不是一个正确的问题。我认为在十年内,数学系学生目前做的很多事情——我们花费大量时间做的事情,以及我们现在论文里写的很多东西——都可以由 AI 完成。但我们会发现,那其实并不是我们工作中最重要的部分。一百年前,很多数学家只是在解微分方程。物理学家需要某个系统的精确解,于是雇佣一个数学家费力地完成微积分,算出流体方程之类的解。一个 19 世纪数学家做的很多工作,你现在只要给 Mathematica、Wolfram Alpha、计算机代数包,或者现在的 AI 打个电话,几分钟就解决了。但我们继续前行了,在那之后我们研究了不同类型的问题。当计算机出现后——以前计算机就是人类,人们曾像高斯那样费力地创建对数表和计算素数,这些都外包给了计算机。但我们继续前行了。在遗传学中,对单个生物的基因组进行测序曾是遗传学博士的全部工作,要仔细分离所有染色体。现在你只需花 1000 美元寄给测序公司就能搞定,但遗传学并没有死,它转向了不同的尺度,也许去研究整个生态系统而不是个体。
Dwarkesh: 我明白你的观点,但什么时候大部分、或者几乎所有的数学进步都会由 AI 驱动?如果今年你发现一个千禧年大奖难题被解决了,你会下 95% 的赌注认为是 AI 独立完成的。终究会有这么一年的。
陶哲轩: 我猜我还是相信“人类+AI”的混合模式将在数学领域占据主导地位很长一段时间。这取决于是否会出现我们目前尚未拥有的额外突破,所以它是随机的。我认为目前的 AI 在某些方面非常擅长,但在另一些方面非常糟糕。虽然你可以不断在上面添加更多框架来降低错误率并让它们更好地协作,但感觉我们还不具备全部要素来真正实现对所有智力任务的满意替代。目前它是互补的,而非替代。因为目前的 AI 将在很多方面加速科学,希望新的发现和突破会更快地发生。但也可能因为摧毁了“机缘巧合”,我们实际上抑制了某些类型的进步。在这一点上,一切皆有可能。我认为当今世界是非常、非常不可预测的。
Dwarkesh: 对于考虑从事数学职业或处于职业早期的人,尤其是在 AI 进步的背景下,你有什么建议?他们应该如何不同地思考自己的职业规划?
陶哲轩: 我们生活在一个变革的时代。正如我所说,这是一个特别不可预测的时代,我们几百年来认为理所当然的事情可能不再成立。我们做每一件事的方式都会改变,不仅仅是数学。在很多方面,我更喜欢那个无聊、安静、事物与 10 年、20 年前没太大区别的时代。但我想人们必须拥抱变化。你所学习的东西,有些可能会过时或被革新,但有些东西会保留下来。你必须始终关注以前无法做到的事情带来的机会。在数学领域,以前你必须经过多年的教育、拿到数学博士学位才能为前沿研究做贡献。但现在很有可能在高中阶段,你就能参与到一个数学项目中,并因为 AI 工具、Lean 和其他一切而做出真正的贡献。未来会有很多非传统的学习机会,所以你需要一种适应性极强的思维方式,也将会有空间留给单纯出于好奇心和玩耍去追求事物。虽然在一段时间内,通过传统教育以老派方式学习数学和科学依然重要,但也应该对截然不同的科学研究方式保持开放,其中一些方式现在甚至还不存在。这是一个可怕的时代,但同时也非常激动人心。

Dwarkesh: 这是个很好的结语。Terence,非常感谢。
陶哲轩: 我的荣幸。
参考链接:
https://youtu.be/Q8Fkpi18QXU?si=l4psmb6-vCY3rbx7
本文整理自数学家陶哲轩(Terence Tao)与 Dwarkesh Patel 的访谈对话,旨在探讨AI对数学及科学研究范式的深远影响。更多关于算法、计算机基础与人工智能的深度讨论,欢迎访问云栈社区与全球开发者交流。