
“我90%确信,2035年前人类将迎来‘数据中心里的天才国度’——甚至可能就在一两年内。”
Anthropic的联合创始人兼CEO达里奥·阿莫代伊(Dario Amodei)说出这句话时,语气平静得像在预言明天的天气。
但真正让他感到意外的,或许不是技术进展太快,而是整个世界对此的认知严重滞后。在一场近150分钟的深度专访中,阿莫代伊向主持人德瓦克什·帕特尔(Dwarkesh Patel)反复强调了一个核心观点:我们离通用人工智能(AGI)的终点比任何人想象的都要近,而公众的注意力却仍停留在旧有的议题上。
“模型已经从聪慧的高中生、聪明的大学生,进化到能完成博士级工作,在编程方面甚至超越了人类水平。”他说,“如果有人断言十年后我们还达不到AGI,我觉得那才是疯狂的。”
那么,当AGI真的到来时,世界会变成什么样?为何Anthropic一边预测“天才国度”即将降临,一边又在算力投资上显得相对“克制”?当90%的代码由AI生成时,为什么90%的软件工程师不会立刻失业?一个AI生成的token,其价值为何能从几分钱跃升至几千万美元?
这场对话,几乎触及了AI未来发展的所有关键命题。
01 “苦涩的教训”再次应验:规模扩展的七个核心要素
帕特尔: 你觉得过去三年AI领域最大的变化是什么?
阿莫代伊: 底层技术的指数级发展基本符合我的预期。模型能力从“聪慧的高中生”到“聪明的大学生”,再到如今能处理博士和专业级别的工作,编程能力甚至实现了超越。最让我惊讶的反而是公众的认知——他们似乎完全没有意识到,我们离这个指数级增长的终点已经如此之近。
帕特尔: 现在关于“规模扩展”的主流假设到底是什么?预训练的扩展定律已被熟知,但强化学习的扩展似乎还没有公开的规律。
阿莫代伊: 我现在的假设与我2017年写《大计算块假说》(The Big Blob of Compute Hypothesis)时基本相同,也与图灵奖得主里奇·萨顿(Rich Sutton)在《苦涩的教训》(The Bitter Lesson)中阐述的观点一致。
这些假说认为,精巧的设计并非决定因素,真正重要的是几个硬性条件:原始算力、数据的规模、数据的质量与多样性、训练时长、一个能扩展到极致的优化目标(如预训练目标或强化学习目标),最后是恰当的归一化与条件化技术。
预训练的扩展定律是第一个例证,如今我们在强化学习(RLHF)上也观察到了同样的规律。模型在数学竞赛题上的表现与训练时长呈对数线性关系,其他强化学习任务也是如此。
帕特尔: 萨顿曾质疑,如果一个系统真正掌握了人类学习的核心原理,就不该需要耗费数十亿美元去学习如何使用Excel或浏览网页。我们仍需构建专门的强化学习环境来教授这些技能,这是否意味着当前的扩展方向存在问题?
阿莫代伊: 你把几件应该分开看待的事情混为一谈了。回顾预训练的发展史就能明白。在GPT-1之前,模型都在极小规模的数据集上训练,比如某些同人小说集,其泛化能力非常有限。
直到开始使用Common Crawl这类海量互联网数据进行训练,模型才获得了强大的泛化能力。强化学习遵循同样的逻辑:我们从简单的数学竞赛开始,扩展到代码生成,再延伸到更多任务,模型的泛化能力会随之增强。
至于样本效率,人类确实不需要阅读几万亿个单词来学习语言。但必须理解,预训练这个过程更接近于人类进化与个体学习之间的一种状态。我们的大脑不是白板,它携带了进化赋予的先验知识;而语言模型是从随机权重开始的。
所以我认为,预训练和强化学习可被视为一种“进化”,而模型在上下文中的学习则类似于“短期学习”。
02 “天才国度”一两年内降临,但90%的工程师不会失业
帕特尔: 你说我们接近指数级增长的终点。有些人可能预测2035年才会有类人智能。你看到了什么迹象,让你认为是一两年而非十年?
阿莫代伊: 我可以从两个层面来回答。2019年我第一次观察到规模扩展现象时,认为其成功的可能性是五成。现在,对于十年内实现“数据中心里的天才国度”,我有90%的把握。剩下的不确定性来自世界本身,比如战争、供应链中断等不可预测事件。
而那5%关于技术本身的不确定性,主要针对那些无法轻易验证的任务,例如规划火星任务、进行CRISPR级别的科学发现或创作小说。但对于可验证的任务,比如端到端的编程,我认为一两年内就能实现。说十年后还达不到,这在我看来才是疯狂的。
(译者注:在2026年1月发布的《技术的青春期》一文中,阿莫代伊将超强AI定义为“数据中心里的天才国度”,预测其将拥有相当于5000万个诺贝尔奖得主的脑力,每个AI实例都能以超人类速度运行,并在多个学科领域具备超越顶尖人类的智力水平。)
帕特尔: 但你如此强调“可验证性”,是否意味着你不相信模型的通用能力?人类同样擅长处理不可验证的事务。
阿莫代伊: 我们已经观察到大量从可验证领域向不可验证领域泛化的案例。以软件工程为例,模型撰写代码注释已经做得不错了。你可以统计AI编写的代码行数,在Anthropic内部和许多用户那里,90%的代码由AI生成已成为现实。但这其实是一个非常宽泛的标准。有人误以为这意味着将不再需要90%的软件工程师,这完全是两码事。
这是一个完整的、循序渐进的谱系,我曾用农业机械化来类比:第一步是90%的代码由AI编写;第二步是100%的代码由AI编写,这两步之间就蕴藏着生产力的巨大跃升。再进一步,是90%的端到端软件工程任务由AI完成,这包括了从编译、搭建环境、测试到撰写备忘录的全流程。然后是100%的当前软件工程任务由AI完成。
即便到了那一步,软件工程师也不会失业,他们可以转向更高层次的工作,比如项目管理或系统架构。再往后,才是对软件工程师岗位需求的实质性减少。
我们正在以极快的速度穿越这个谱系。我认为一到两年内,AI就能达到端到端完成软件工程任务的水平——那是一个完整的人类活动领域,不仅仅是写代码,而是完整地解决一个工程问题。
帕特尔: 人们开始使用Claude Code,但从宏观层面看,似乎尚未引发所谓的“软件复兴”。这是否说明我们高估了“天才国度”的短期影响力?
阿莫代伊: 我既同意效应不会立竿见影,也认为其扩散速度会非常快。在Anthropic内部,我们见证了每年约10倍的收入增长:2023年从0到1亿美元,2024年从1亿到10亿,2025年从10亿到90-100亿美元。今年年初这一趋势仍在持续。这条曲线当然无法永远持续,但其势头极其迅猛。
关键是要理解,有两个指数曲线在同时发生:一个是模型能力的指数增长,另一个是模型在经济中渗透和应用的指数增长。技术的扩散不是瞬间完成的,但它比历史上任何一次技术革命都要快得多。
03 六个月的人类编辑 vs 三秒钟的AI
帕特尔: 以视频编辑为例,人类编辑需要花费数月时间来了解特定观众的喜好和品味。如果一个AI系统需要在“入职”后像人类一样边工作边学习这些背景知识,你认为这何时能够实现?
阿莫代伊: 我认为,关键在于我们能否让AI真正精通“使用电脑”这项技能,即它能像人一样观看视频、检索资料、与团队沟通。事实上,我们正在取得进展:大约一年前,AI在衡量计算机使用能力的OSWorld基准测试上得分约为15%,如今已达到65-70%。计算机使用能力首先要跨过一个可靠性的门槛。
然而,要让它完美接手你积累了六个月经验的视频编辑工作,我们需要的是更强大的能力,即我所说的“数据中心里的天才国度”。如果你问我具体时间点,虽然我非常有信心所有这些将在10年内发生,但我的直觉是一到两年,最多不超过三年。
帕特尔: 但编码之所以进展神速,是因为代码库提供了一个结构化的外部记忆框架。对于视频编辑,没有这种现成的框架。如果不发展这种在工作中即时、持续学习的能力,我怀疑我们能否看到世界发生巨变。
阿莫代伊: 我认为有两件事需要考虑。
第一,当前的预训练和强化学习已经赋予了模型巨大的知识广度。仅凭这一点,就可能让我们达到模型在绝大多数事情上都优于人类的程度。再加上上下文学习的能力——如果给模型100万个token(相当于人类数天的阅读量),它确实能学会并应用新知识。在现有技术范式下,这两者的结合可能就足以催生“数据中心里的天才国度”。
第二,关于持续学习的概念,我们也在积极研究。未来一两年内,我们很有可能解决这个问题。其中一种直接的方法就是极大地延长模型的上下文窗口,从技术原理上讲,没有什么能阻止更长的上下文窗口正常工作。
帕特尔: 但上下文长度的增加似乎遇到了瓶颈。从2020年到2023年,我们从2K token增长到128K,可在此之后,当尝试远超此值的上下文时,模型的质量会显著下降。你看到了什么,让你认为1亿token的上下文是可行的?
阿莫代伊: 这主要是一个工程和算法问题。你提到的质量下降,很可能是因为你在较短的上下文窗口上训练模型,却试图在超长上下文中进行推理。如果你直接在更长的上下文窗口上进行训练,这个问题理论上是可以解决的。这很有挑战性,但并非不可能。
04 AGI迫在眉睫,为什么不买更多算力?
帕特尔: Anthropic曾预测,到2026年底或2027年初,我们将拥有“智力达到或超过诺贝尔奖得主水平的AI系统”。如果你真的相信这个时间表,逻辑上你应该想要尽可能庞大的数据中心。但你在公开场合却强调,相比竞争对手,你们在算力扩展上更“负责任”。这两者如何自洽?
阿莫代伊: 这其实是完全一致的,关键在于理解技术“扩散”的速度。假设技术进展如我所料,我们在一到两年内就拥有了“数据中心里的天才国度”——这是一个巨大的能力突破。
但这绝不意味着第二天就会有数万亿美元的收入涌入。经济层面的扩散需要时间:企业需要采购决策、走合规审批流程、培训员工、重构业务流程。
问题是这个扩散滞后期有多久?可能是一年,也可能是两年。我不确定。现在回到算力采购决策上。当我们决定购买多少数据中心算力时,我们看的是收入增长曲线:过去几年,我们的年化收入保持了约10倍的增长,今年年初的年化收入已达到约100亿美元。而建设数据中心需要一到两年的提前期。所以今天做的决定,真正影响的是2027年我们具备的能力。
如果我假设收入继续每年增长10倍,那么到2026年底就是1000亿,2027年底就是1万亿美元。我可以据此订购价值1万亿美元的算力。但万一我判断错了呢?如果“天才国度”晚来一年,2028年才出现呢?如果增长倍数是5倍而非10倍呢?如果2027年的收入只有8000亿而非1万亿——那么我就破产了,没有任何对冲手段能拯救我。
所以我必须承担一定的风险,并取得平衡:购买的算力要足够多,以确保能抓住技术“强劲上升”的机遇;但又不能多到在“增长稍慢”的世界里将公司压垮。这就是我所说的“负责任”的含义。
帕特尔: 如果你的预测是一到三年,按最晚的三年计算,2029年你应该需要价值10万亿美元级别的算力才合理。但你目前正在扩建的规模,似乎远未达到这个量级。
阿莫代伊: 你为什么会这么想?我们来看看整个行业的数据。今年全球新建的AI算力,大概在10到15吉瓦(GW)左右,而这个数字每年大约增长3倍。所以到2028年或2029年,整个行业每年的算力投入就会达到数万亿美元的量级。你刚才说的那个数字,正是整个行业正在走向的方向,而不仅仅是我个人的预测。
05 盈利悖论:每个模型都赚钱,但公司整体在亏钱
帕特尔: 你已告知投资者,Anthropic计划从2028年开始实现盈利。而2028年恰恰是我们可能拥有“数据中心里的天才国度”的节点。为什么会选择在这个时间点实现“盈利”?
阿莫代伊: 盈利能力在这个领域有些反直觉。我给你一个简化模型:假设你建了一个数据中心,一半算力用于训练新模型,一半用于服务用户(推理)。推理业务的毛利率可以超过50%。如果你能精准预测需求,按需建设数据中心,你就能盈利。问题在于预测极端困难。
如果需求低于预期,你就会有过剩的算力,超过一半的数据中心实际上在用于研究(训练),而不是产生收入的推理。这时你就不会盈利,但好处是你有大量算力可以用来训练更强大的下一代模型。反过来,如果你低估了需求,你会非常盈利,但代价是研究算力被挤占,没有足够资源训练下一代模型。
帕特尔: 目前几家领先的AI公司都尚未盈利。什么会改变这个局面?
阿莫代伊: 当前,推理服务的毛利率确实很高,但我们还处在算力规模指数级扩张的阶段。
举个例子:假设去年我们花费10亿美元训练了一个模型。今年,这个模型产生了40亿美元收入,推理成本是10亿美元——那么,单看这个模型,它为公司赚了20亿美元。但问题是,我们同时正在训练下一个更强大的模型,而由于算力规模在指数级增长,这个新模型的训练成本可能是100亿美元。
结果是:每一个已部署的模型都在赚钱,但公司整体却是亏损的,因为投入到下一代模型的巨额研发成本已经花出去了。我所说的均衡状态,是指我们拥有了“数据中心里的天才国度”之后。到那时,模型训练的规模不再呈指数级飙升,进入一个更平稳的阶段,公司的盈利能力才能真正稳定地体现出来。
06 机器人技术卡在哪?答案不在硬件
帕特尔: 一旦有了“天才国度”,机器人技术会很快被解决吗?
阿莫代伊: 会的。可以通过在多种模拟环境中训练来实现泛化,也可以通过长上下文学习,或者真正的持续学习。不管通过哪种方式,当模型具备了这些高级认知和规划技能时,机器人技术将被彻底改变,包括机器人的设计和控制本身。这也会带来数万亿美元的收入机会,其扩散速度同样会很快,但不会无限快,可能还需要一两年时间。
帕特尔: 人类对智能的探索中总会有新的“碎片”被发现。为什么这次就不会再有新的、无法预见的障碍?
阿莫代伊: 机器学习的历史一再表明,许多曾被认为是根本性障碍的东西,比如语义理解、复杂推理,最终都在“大计算块”面前消失了。海量数据需求是真实的,持续学习可能也是一个挑战,但更有力的证据是,我们可能在一两年内就能让模型端到端地完成软件工程——这本身就是一项需要定技术方向、深刻理解背景的AGI级别任务。
帕特尔: 如果我们正在走向一个“完全可替代的远程工作者”的世界,那么目前API按token收费的模式还合理吗?AGI应该如何定价?
阿莫代伊: 我认为API模式会比很多人想象得更为持久,因为技术总是在指数级进步,总会有新的应用场景涌现,而API允许开发者在最新的模型上快速进行尝试和构建。这种需求永远不会消失。但我也确信会有其他商业模式出现,因为并不是每个token的价值都相等。
举个例子:如果用户打电话问“我的Mac死机了怎么办?”,模型回答“重启试试”——这个答案可能只值几分钱。但如果一个AI对一家制药公司说:“你们正在开发的这个分子,如果把那个芳香环从这一端移到另一端,就能产生奇迹般的效果”——这句话可能价值数千万美元,因为它改变了整个研发方向。
所以未来一定会出现按效果付费、按价值分成,或者按小时计费的模式,就像雇佣人类专家一样。
帕特尔: 说到应用,Claude Code目前是这个领域的领头羊之一。为什么是Anthropic做出了这件事?你们是如何成功打造出一个应用层产品的?
阿莫代伊: 过程其实很直接。大约在2025年初,我意识到:“时机已经成熟,AI公司可以利用自己的模型来加速自身的研究。” 但我们需要一个趁手的工具,于是内部开发了Claude CLI,后来更名为Claude Code。结果它在内部被所有人迅速采用,因为编码是我们日常工作的核心。
我看着这个内部现象,就想:“既然产品价值已在内部得到验证,而且我们拥有成千上万的内部用户(他们在很多方面能代表外部开发者),为什么不把它推向市场?”于是我们就这么做了。
帕特尔: 在一个AI快速扩散、数量激增的世界,如何保证安全?
阿莫代伊: 短期内,主要的AI提供者数量有限,关键是要确保每个参与者都认真做好对齐(Alignment)工作,部署必要的安全保障,例如生物危害分类器。长期来看,需要建立某种全球治理架构,既能够监控大量AI系统的行为,又能维护人类的基本自由。这可能包括由AI辅助的监控系统,但必须以保护公民自由的方式构建。我担心的是,这一切可能来得太快,我们没有100年的时间去慢慢适应和建立完善的治理机制。
帕特尔: 你们为Claude设定了一套“宪法”价值观,而不是让它完全顺从用户的指令。为什么选择这条路径?
阿莫代伊: 这是基于实践经验。赋予模型一套核心原则,比给予它一长串具体规则,能让其行为更一致,在边缘情况下的处理也更好。模型主要应该听从用户指令,但当面对危险或可能伤害他人的要求时,它会基于这些基本原则进行拒绝。这是在“可修正性”(按指令行事)和“内在价值观”(坚守底线)之间取得的一种平衡。
帕特尔: 这些原则由Anthropic制定,却可能影响广泛的经济活动。应该如何确定这些原则?
阿莫代伊: 我认为有三个层面。第一,我们在内部不断迭代和修改。第二,不同的公司可以有不同的“宪法”,形成一种竞争和反馈机制,外界可以观察、比较和评论。第三,超越公司层面的社会反馈,我们可以进行民意调查,未来甚至可能纳入代议制政府的意见,但立法过程通常太慢。我特别喜欢第二个层面,这有点像不同治理形式的“群岛”之间的竞争,最终由市场和社会选择。
技术的发展浪潮汹涌而来,其速度远超公众的感知。从这场对话来看,AI领域的顶尖思考者不仅关注能力的突破,更在提前思考能力突破之后的经济、社会与伦理格局。对于广大开发者和技术爱好者而言,保持关注、深入思考并积极参与到这场变革中,或许是在这个“技术青春期”里最明智的选择。想要了解更多前沿技术讨论和开发者见解,不妨来云栈社区逛逛。