
1815年,英国化学家 William Prout 曾提出一个大胆的猜想:所有元素的原子量都是氢原子量的整数倍。这个直觉看似合理,却被数据无情推翻——氯的原子量是35.45,并非整数。
接下来的85年里,化学家们尝试了各种补救解释:或许是测量存在杂质,可能是实验精度不够,或者35.45其实就是35.5的近似值。直到1913年同位素被发现,谜底才彻底揭开:自然界中的氯是两种同位素的混合物,35.45正是它们的加权平均值。Prout 的直觉方向是对的,只是验证他想法所需的工具,比他本人晚出现了近一个世纪。
这个故事揭示了一种被称为“验证循环主动对抗正确理论”的现象。与之相反,我们现在用来解释 AlphaFold 成功的叙事,则是另一个极端。
那18万个蛋白质结构是哪来的?
当 DeepMind 发布 AlphaFold2 时,“AI攻克了50年科学难题”迅速成为主流叙事。这个说法本身没错,但它漏掉了故事最关键的另一半。
蛋白质数据库(Protein Data Bank, PDB)中存储着大约18万个已解析的蛋白质三维结构。每一个结构,都是科学家们利用X射线衍射、核磁共振或冷冻电镜技术,耗费大量时间与资源亲手测定出来的。这数十亿美元的投入和几十年的积累,构成了 AlphaFold2 进行训练的基石。
AlphaFold 项目的首席科学家 John Jumper 曾明确指出,大规模、高质量数据资源的系统性整理,代表了整个结构生物学子领域的集体成果,正是这些数据使得模型能够实现出色的泛化能力。这18万个结构绝非天赐,而是整个科学社群数十年集体劳动的结晶。
另一个常被忽略的关键点是:AlphaFold 能够高精度预测蛋白质的三维形状,但它无法解释“为什么”会形成这个特定的形状。它是一个强大的黑盒预测工具,而非对内在物理机制的理解。相比之下,广义相对论仅从几条基本原理出发,就成功预测了水星近日点的进动现象——这是一个它从未被刻意设计去解决的问题。AlphaFold 目前还不具备这种超越设计目标的、原理性的解释力。
将这两点结合起来,我们便能勾勒出当前 AI 加速科学研究的真实边界:验证循环必须足够紧密(能快速判断对错),同时领域内已经积累了足够多的高质量标注数据。 只有当这两个条件同时满足时,AI 才能发挥出类似 AlphaFold 那样的颠覆性效果。缺少任何一个,AI 或许能提升效率,但难以撼动整个研究范式。
结构生物学恰好是全世界数据积累最系统、最密集的领域之一。它是一个特例,而非普遍常态。
1930年的论文里,早已埋下比特币的思想火种
近年来,关于“科学进步正在放缓”的讨论不绝于耳。其论据通常是:要在前沿取得突破,需要投入更多的人力、资金和时间——那些容易摘取的“低垂的果实”已经被摘完了。
这个论点隐含着一个假设:科技创新的“甜点桌”存量是固定的。
回顾1930年代,阿兰·图灵和阿隆佐·邱奇等人对计算理论进行了奠基性的统一工作,从根本上厘清了“什么是计算”以及“计算的极限在哪里”。如果“低垂果实论”是正确的,那么计算机科学从那时起就应该进入收尾阶段,因为“理论的一切”似乎都被整理完毕了。
然而事实并非如此。公钥密码学直到1970年代才被明确提出,但其核心思想在1930年代的计算理论框架中早已潜藏。同样,比特币的核心机制——让互不信任的节点共同维护一份不可篡改的分布式账本——其思想根源也深植于早期的计算与协议理论中,只是等到2008年才被中本聪明确地表达并实现。在1930年代,要想从图灵的论文里直接“读出”比特币,需要先走过此后几十年的思想演变与实践历程。
唐纳德·高德纳在撰写巨著《计算机程序设计艺术》时,曾有数学家嘲讽道:“计算机科学算什么学科?等它有一千个深刻定理再说吧。”高德纳在几十年后的序言中回应:现在,那一千个深刻定理已经拥有了。
“相变”的例子也很能说明问题。中学课本通常只教固、液、气三态。但稍稍深入物理世界,你就会发现超导体、超流体、玻色-爱因斯坦凝聚态、量子霍尔系统、分数量子霍尔系统……这个清单仍在不断扩展。正如 Michael Nielsen 所言:我们并非在接近科技树的顶端,我们仍在其庞大的底部。大多数分支可能永远不会被探索到,因为这棵树实在太宽广了。
放到当下的语境中思考:AI领域充斥着关于“如何追上美国技术栈”的讨论,这种框架默认全世界只有一棵统一的科技树,所有人都在同一条赛道上竞争。但如果科技树本身足够庞大,从不同起点出发,完全可能走向截然不同的分支。那么,“追赶”只是一种策略选择,而非唯一答案。某些暂时被视为“弯路”的探索,或许正是通向另一个全新分支的入口。
如果外星文明开源了他们的GitHub仓库
公认的量子计算奠基性论文出现在1980年代:理查德·费曼在1982年,大卫·多伊奇在1985年分别提出了关键构想。
但早在1950年代,有一个人其实已经具备了发明量子计算的全部知识条件:约翰·冯·诺依曼。他既是现代计算机体系结构的奠基人,又撰写过关于量子力学的重要著作,两个领域都在他的思维射程之内。他为什么没有提出量子计算?
因为要让一个想法被认真对待并发展为成熟领域,需要两件事同时成熟。第一是计算机变得普及——像Apple II、Commodore 64这样个人能购买和使用的机器出现后,“计算”的本质才成为大众关心的问题。第二是单个量子态的操控成为可能,这要等到1980年前后的离子阱实验取得突破。
一个有趣的细节是,1981年前后,费曼买到了他的第一台个人电脑,兴奋到抱着新机器往回跑,结果把自己摔伤了。也正是在那个时间窗口,他开始深入思考量子计算的问题。个人计算设备的普及与量子操控技术的成熟,这两条原本独立的技术路径在历史中偶然交汇。如果离子阱技术晚出现十年,量子计算的奠基论文可能就要推迟到1990年代才会问世。
这就是科技探索中强烈的路径依赖。人类是视觉主导的生物,这塑造了我们思考和表达世界的方式——我们偏好平面、线性叙事和欧几里得空间中的几何直觉。试想一个听觉主导的文明,面对同样的物理规律,他们可能发展出对时间序列和信号处理极度精密的数学工具,但对立体几何相对陌生。他们的科技树,最终会长成与我们完全不同的形态。
Nielsen 提出了一个思想实验:假设有人向你展示了一个外星文明的代码仓库(GitHub),里面存放着他们几千年积累的所有算法。即便你获得了全部代码,也可能需要极长的时间才能理解其中的深层思想——因为这些知识是从一条完全不同的认知路径上生长出来的,你缺乏理解它们所必需的前置概念和思维框架。
其实,地球上已经存在这样一个“外星代码库”了:那就是蛋白质。经过40亿年进化试错筛选出的分子机器,每一个都是自然界给出的高效解法。我们对血红蛋白的研究论文已有数万篇,却仍未穷尽其奥秘;对每个细胞里的蛋白质工厂——核糖体——的了解也依然非常粗浅。
不同文明在科技树的不同分支上深入探索,这带来了一个有趣的含义:文明间的知识贸易价值可能是永久性的。你不会在完全掌握对方的知识后就失去贸易的理由,因为这棵树太大了,双方永远拥有对方尚未探索或擅长的新东西。
我们能确定的那件事
Nielsen 没有陷入“AI是否会超越人类”的宏大预测,而是做了一个更具体、更有操作性的区分。
有一类科学问题特别适合当前 AI 加速:验证循环紧密(对错能快速判断)、历史数据积累深厚、正确答案的形态明确。AlphaFold 所解决的蛋白质结构预测问题,完美符合这三条标准。
但还有另一类问题:验证循环漫长而宽松,有时甚至会像 Prout 的猜想那样,长期“对抗”正确的理论。爱因斯坦在1905年提出狭义相对论,其中时间膨胀效应的精确验证,要等到1940年代利用宇宙射线中的μ子实验才得以完成。在这类问题中,进展的瓶颈往往不是研究效率,而是验证结构本身决定了认知突破的速度。
AI 在第一类问题上能产生 AlphaFold 式的突破性成果;而在第二类问题上,它或许能提升研究者的工作效率,但很难动摇其根本的研究范式。
“AI将彻底改变所有科学”和“AI对科学研究没什么用”这两种断言,或许都失之偏颇。更有价值的提问方式是:你所关注的这个领域,其验证循环有多紧?历史数据的积累有多深? 将这两个问题套用到任何一个具体的科研方向上,我们大致就能判断出 AI 在其中能扮演什么角色,以及它的边界在哪里。
这种务实、基于领域特性的分析,远比一句笼统的“AI要改变一切”有用得多,也更能帮助我们理解技术革命的真实逻辑与潜力边界。关于科技演进的更多深度讨论,欢迎在云栈社区的技术哲学板块继续交流。