摘要: 70年AI研究最大教训:依赖算力的通用方法远胜人类知识嵌入,搜索与学习才是未来。
引言
在人工智能领域摸爬滚打了数十年的研究者们,或许都曾有过这样的冲动——将自己对某一领域的深刻理解,直接“编码”进 AI 系统之中。棋盘上的战略直觉、语言学家对音素的精妙归纳、视觉专家对边缘检测的独到见解……这些人类智慧的结晶,理应成为 AI 腾飞的翅膀。
然而,历史一次又一次地给出了相反的答案。
Rich Sutton,强化学习领域的奠基人之一,在 2019 年 3 月发表了一篇言辞犀利、掷地有声的短文——《苦涩的教训》(The Bitter Lesson)。文章不长,却在 AI 学界引发了广泛共鸣与深刻反思。本文将基于这篇原文,为国内读者进行详尽的解读与阐发。
一、核心命题:算力是 AI 进步的终极驱动力
Sutton 开门见山地抛出了他的核心论断:
“70 年 AI 研究能读出的最大教训是:利用算力的通用方法,最终是最有效的,而且领先幅度巨大。”
这一论断背后的逻辑,是摩尔定律(Moore’s Law)或其更广义的推论——计算成本的持续指数级下降。
问题的症结在于:大多数 AI 研究都在一个隐性假设下进行——即可用于智能体的计算资源是固定不变的。在这个假设下,充分利用人类专家知识,似乎是提升性能的唯一可行路径。但现实是,从稍长的时间跨度来看,可用的计算量会以令人咋舌的速度增长。
于是,一个悖论浮现了:
- 研究者为了在短期内看到改进,拼命将人类知识“塞进”系统;
- 而从长远来看,真正决定胜负的,是对算力的充分利用;
- 两者并非天然对立,但在实践中,它们往往会相互消耗——投入人类知识工程的时间与精力,挤占了探索通用计算方法的空间;
- 更糟糕的是,基于人类知识的方法往往会使系统变得更加复杂,反而降低了其从更通用的计算方法中获益的能力。
这就是“苦涩”之所在:当算力驱动的方法最终胜出时,那些长期投身于知识工程的研究者,不得不面对自己多年努力被颠覆的现实。
二、棋局往事:深蓝击败卡斯帕罗夫的启示
1997 年,IBM 的深蓝(Deep Blue)击败了国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov),震惊世界。
然而鲜为人知的是,这场胜利背后,蕴含着一场研究路线的深刻博弈。
在深蓝之前,计算机国际象棋领域的主流研究方向,是利用人类对棋局特殊结构的深刻理解——如何评估棋型、如何识别战略要点、如何模仿大师的思维模式。这些研究者认为,只有让机器“像人一样思考”,才能真正征服这项智力游戏。
深蓝的路数截然不同:暴力搜索(brute-force search)。凭借专用硬件和软件,深蓝每秒能够评估多达两亿个棋局位置,以算力碾压一切。
结果如何?那些倾尽心血研究“人类知识方法”的棋类研究者,败得颜面尽失。他们的反应,Sutton 用了一个颇为传神的描述——“not good losers”(输不起)。他们辩称:暴力搜索只是这次碰巧赢了,并不是通用策略;况且,这根本不是人类下棋的方式。
这种反应,折射出人类心理的一个普遍倾向:我们往往希望“自己的方法”获胜,当事与愿违时,便倾向于否认失败的普遍意义。
三、围棋的轮回:历史再次重演,只是晚了 20 年
如果说国际象棋的故事只是一个偶然,那么围棋的历程,则将这一规律刻进了历史的年轮。
围棋的搜索空间远比国际象棋复杂,长期被认为是人类直觉不可替代的领域。早期研究者投入了大量精力,试图通过提炼围棋的人类知识、利用棋局的特殊结构,来绕开搜索的难题。
然而,当搜索方法被有效地大规模应用时,那些精心构建的人类知识体系,不是变得无关紧要,就是产生了反效果。
更为关键的是,自我对弈学习(learning by self play)的引入,使得围棋 AI 实现了质的飞跃——以 AlphaGo 和 AlphaZero 为代表的系统,通过与自己对弈数以百万计的棋局,学会了连职业棋手都叹为观止的招法。
Sutton 指出,学习,就像搜索一样,是将海量计算资源投入 AI 研究的有效手段。搜索与学习,是利用大规模算力的两大最重要技术类别。
围棋的故事,与国际象棋如出一辙:研究者起初着力于利用人类理解(以减少搜索需求),而更大的突破,最终来自于拥抱搜索与学习。只是,这一次的轮回,晚了整整 20 年。
四、语音识别:统计方法的胜利与深度学习的崛起
时间拨回到 1970 年代。美国国防高级研究计划局(DARPA)资助了一场语音识别领域的早期竞赛。
参赛选手们兵分两路:
一路是“人类知识派”——他们的系统充分利用了人类关于词语、音素、人类声道结构等方面的专业知识,构建了精妙复杂的规则体系;
另一路是“统计方法派”——他们采用了基于隐马尔可夫模型(Hidden Markov Models, HMMs)的更具统计性质的方法,依赖更多的计算量。
结果,统计方法再次胜出。
这场胜利,引发了整个自然语言处理领域在数十年间的深刻变革——统计与计算,逐渐成为这一领域的主导范式。
而深度学习在语音识别领域的兴起,则是这一趋势的最新演进。深度学习方法对人类知识的依赖更少,借助更强大的算力和海量训练数据,实现了戏剧性的性能突破。
Sutton 不无感慨地指出:在语音识别领域,研究者同样曾试图构建“像自己大脑一样工作”的系统——将自己的知识与直觉编码进去。但这一路径,最终被证明不仅适得其反,而且是对研究者时间与精力的巨大浪费。
五、计算机视觉:从 SIFT 特征到深度神经网络
计算机视觉领域,同样经历了类似的蜕变。
早期的视觉研究,将“看”这件事概念化为:搜索边缘、搜寻广义柱状体(generalized cylinders),或是提取 SIFT(尺度不变特征变换)特征。这些方法,无不深深打上了人类对“视觉应该如何工作”这一先验认知的烙印。
而今天,这一切都被抛弃了。
现代深度学习神经网络,仅仅依赖卷积(convolution)和某些不变性(invariances)的概念,便在视觉任务上取得了远超人类知识驱动方法的表现。网络自己从数据中“学会”了识别物体、检测边缘、理解场景——而无需人类事先告诉它“边缘长什么样”。
六、苦涩的教训,四条历史规律
综合上述领域的案例,Sutton 归纳出了“苦涩教训”背后的四条历史规律:
1. AI 研究者总是试图将知识内嵌进智能体
这种冲动是自然的——我们了解自己的领域,我们有直觉,我们有专业知识。将这些宝贵资产直接赋予 AI,似乎是最顺理成章的捷径。
2. 短期内,这种方法确实奏效,且令研究者满足
知识驱动的方法,在初期往往能带来立竿见影的效果。它们不仅能提升性能指标,还能给研究者带来深刻的成就感——毕竟,看到自己的智慧被机器“理解”并运用,是一种难以言说的满足。
3. 长期来看,这种方法触及天花板,甚至阻碍进步
然而,人类知识的复杂性是有上限的,而世界的复杂性是无尽的。当系统被特定的人类概念框架所束缚,它便失去了进一步扩展的空间。
4. 突破性进展,最终来自基于搜索与学习的算力扩展路径
历史一再证明:当搜索与学习被有效地大规模应用,它们总能突破人类知识方法所能达到的上限。
Sutton 将最终的成功称为“带着苦涩的成功”(success tinged with bitterness)——它是对一种以人类为中心的方法的超越,而这种超越往往难以被那些长期投身其中的研究者坦然接受。
七、两大深层启示
苦涩教训的价值,不只在于对历史的复盘,更在于对未来研究方向的深刻指引。Sutton 提出了两条更为根本的启示:
启示一:通用方法的力量
未来应当押注于那些能够随算力增长而持续扩展的通用方法。而在当前已知的方法中,搜索与学习,是能够在算力极为强大时仍能任意扩展的两类核心技术。
这一观点,在今天大语言模型(LLM)的时代,已得到充分印证。GPT 系列、Gemini、Claude 等模型的成功,核心密码正是:Transformer 架构(一种通用的注意力机制)+ 海量算力 + 海量数据的自监督学习。没有任何特定领域的人类知识被硬编码进去,却在几乎所有语言任务上超越了所有人的预期。
启示二:停止试图简化心智的内容
第二条启示,则更具哲学意味:
“真实心智的实际内容,是极度复杂、无可救药地复杂的。我们应当停止试图找到思考心智内容的简单方式。”
无论是空间、物体、多智能体,还是对称性——这些都是外部世界的一部分,而外部世界是任意复杂的。试图将这些概念以简化的方式内嵌进 AI 系统,注定是徒劳的,因为它们的复杂性是无穷无尽的。
Sutton 给出的建议是:我们应当内嵌的,是能够发现并捕获这种复杂性的元方法(meta-methods)。这些方法必须能够找到好的近似,但寻找的过程应当由算法来完成,而不是由人来完成。
一句话点睛:
“我们想要的 AI 智能体,是能像我们一样发现规律的,而不是包含我们已经发现之物的。将我们的发现直接内嵌进去,只会让机器更难学会如何自己去发现。”
这句话,或许是整篇文章中最具深意的一句。它不仅是对 AI 研究方法论的批判,更是对人类认知傲慢的一种警示。
八、写在当下:我们真的学到了这个教训吗?
Sutton 在 2019 年写道:“作为一个领域,我们仍未彻底学会这个教训,因为我们还在不断犯同样的错误。”
五年后的今天,这句话依然振聋发聩。
大语言模型的成功,从某种意义上说,是“苦涩教训”最雄辩的注脚。但与此同时,我们也看到了新一轮“知识注入”冲动的兴起——越来越多的研究者和工程师,试图通过各种形式的提示工程(Prompt Engineering)、检索增强生成(RAG)、知识图谱注入等方式,将结构化的人类知识“喂给”模型,以弥补其在特定领域的不足。
这究竟是“苦涩教训”的重蹈覆辙,还是在现有算力约束下务实的工程选择?答案或许并不绝对。
但 Sutton 的核心警示,值得每一位 AI 研究者和从业者铭记于心:
在短期收益与长期突破之间,要有清醒的战略判断。不要因为短期的成功,就固执地认为人类知识驱动的方法是终局。算力与通用方法,才是历史一次次证明的胜者。
九、结语
《苦涩的教训》是一篇字数不多、分量极重的文章。它不是在否定人类智慧的价值,而是在提醒我们:智慧的最大应用,或许不是直接告诉机器“答案是什么”,而是设计出能让机器自己找到答案的方法。
搜索与学习,是算力的翅膀。当算力的天花板不断被摩尔定律推高,这两种方法所能触达的高度,将远超任何人类知识工程所能企及的边界。
这是历史的教训,也是未来的启示。
苦涩,但深刻。
原文链接: http://www.incompleteideas.net/IncIdeas/BitterLesson.html
作者: Rich Sutton | 原文发表于 2019 年 3 月 13 日