GTC 2026主题演讲结束的第二天,英伟达首席科学家 Bill Dally 和 Google 首席科学家 Jeff Dean 坐到了同一个台上。前一天黄仁勋刚给整届大会定了调—— “The inflection point of inference has arrived”,推理的拐点已经到来。整场 keynote 他提了近 40 次“推理”, “训练”只出现了 10 余次。ChatGPT、o1 推理模型、Claude Code 智能体,他把这三件事称为过去三年 AI 行业的“三件大事”,共同指向一个趋势:推理需求正在吞噬训练需求。

Dally 和 Dean 的对话就是在这个定调之后展开的技术深潜。两人分别站在 AI 算力硬件和大规模 AI 系统的第一线。Dally 是互连网络和并行计算领域的教科书级人物(他写过这个领域的教科书),2009 年加入英伟达后带领团队实现了 GPU 推理性能在十年间提升 1000 倍的工程路径;Dean 则是 Google 基础设施的奠基者之一,从 MapReduce、BigTable 到 TensorFlow 再到 TPU,他的名字贯穿了 Google 过去 25 年几乎所有关键基础设施节点。2025 年,两人分别获得了英国女王伊丽莎白工程奖。
这场对话是 Dally 在 GTC 上的年度保留节目。GTC 2024 他和斯坦福教授、ImageNet 创始人李飞飞对谈,GTC 2025 和 Meta 首席 AI 科学家 Yann LeCun 对谈,今年轮到了 Dean。每年的话题都围绕硬件和 AI 研究的交汇点,但今年有一个贯穿始终的新主题:过去那种用一种芯片、一套流程打天下的思路行不通了,推理时代的每一个环节都需要拆开来做。
1. 模型在变强,强在“有标准答案”的地方
三四年前,模型在八年级数学题上只能答对 40% 到 50%,大家就已经觉得了不起了。Dean 说,过去一年模型在数学和编程上的进步速度远超预期。Gemini 在国际数学奥林匹克 IMO 拿了金牌,在国际大学生编程竞赛 ICPC 也拿了金牌,12 道题解出了 10 道,其中包括一道所有人类队伍都没做出来的题。
这背后的关键是 Dean 所说的 verifiable rewards,也就是模型能拿到明确对错反馈的那类任务。数学题有对错,代码能跑不能跑,这种清晰的信号让强化学习的训练效率远高于模糊领域。如何把这种“有标准答案”的训练方法扩展到没有标准答案的领域,Dean 认为是当前最重要的开放问题之一。
与能力提升同步发生的是工作模式的变化。以前让模型做事,几分钟就要人来接手。现在可以交给它一个持续数小时甚至数天的任务,它会自己执行、自我纠错、继续推进。Dean 说这是一个本质性的变化:模型从“回答问题的工具”变成了“在后台独立运转的智能体”。
研究本身也在被智能体改变。Dean 回顾了 2017 年 Google Brain 团队做神经架构搜索的经历,当时叫 NAS,研究者需要用代码定义搜索空间。现在可以直接用自然语言告诉模型“请探索新的蒸馏算法,试试我们目前没用到的信息”,它就会自己跑 50 个实验,淘汰 40 个,在剩下 10 个里做深入跟进。“想到有研究价值的点子其实不难,难的是跑实验、解读结果。如果智能体能承担大量这类工作,那就是超强研究者和超强智能体之间的协作。”
2. 智能体的瓶颈不在模型,在工具链
智能体要高效运转,推理速度只是一半问题。Dean 指出了一个容易被忽视的瓶颈:智能体调用的工具大多是为人类交互速度设计的,而且跑在 CPU 上。C 编译器的启动时间、电子表格和文档的编程接口,这些工具的响应速度从来没有人在意过,因为人类够慢。但当智能体运行速度比人快 50 倍时,工具延迟就成了主导因素。
把模型推理做到无限快,端到端也只能加速两三倍。这就是阿姆达尔定律的翻版:可加速的部分再快,不可加速的部分就成了天花板。Dean 认为接下来需要对整条工具链做一次彻底的重新设计——编译器、文件系统、API 接口,所有为人类速度设计的东西都要为智能体速度重写。
这个判断让对话自然转向了硬件侧:推理本身也需要拆开来做。
3. 推理不是一种计算,而是三种
Dally 给出了一个直接的判断:推理已经不是“开始变重要”,推理就是现在的核心任务。数据中心 90% 的电力消耗花在推理上。
但推理内部并不是均质的。Dally 把它拆成了三个截然不同的阶段。
Prefill 阶段接近训练的计算模式,所有 token 可以并行处理,计算密集,通信能耗高。Decode 阶段则完全不同,是矩阵乘向量运算,极度依赖内存带宽和延迟。而 Decode 内部还可以进一步拆开——每一层 Transformer 对每个 token 做两件事:先做注意力计算,再过前馈网络。
注意力计算是“看哪里”。当前 token 对上文每个位置打相关性分数,分数高的信息权重大,不相关的被忽略,最终从上文中萃取出相关信息。上文信息存在 KV cache 里,每个已生成的 token 都留有一对 Key-Value 向量作为档案。注意力自身参数不大,以 LLaMA 3 8B 为例只占模型总参数的约 17%,真正的负担在 KV cache:上下文越长 cache 越大,百万 token 级别可达几十上百 GB。
前馈网络是“看完怎么理解”。它接手注意力交出的萃取物,分拣出哪些特征和当前任务相关,放大重要的,压掉没用的,打包传给下一层。前馈网络是模型里的大块头,占总参数的约 70%,模型的事实性知识大部分就编码在这里。Mixture of Experts 这种让不同输入激活不同参数子集的架构里更直观:前馈网络被拆成几十个专家,代码相关的 token 路由到编程专家,历史相关的路由到另一个专家。
两步对硬件的需求截然不同。注意力需要大容量存储来放 KV cache,只有 GPU 的 HBM 撑得住。前馈网络参数量占七成,每生成一个 token 都要完整读一遍,读取量大但模式规律。Groq LPU 把 SRAM 直接做在芯片上,读取带宽 150TB/s,是 GPU HBM 22TB/s 的约 7 倍;256 块 LPU 组成 LPX 机架,总共 128GB SRAM,用数量换容量。
Dally 预测未来会出现至少三种不同配比的硬件:一种擅长训练和 Prefill,一种擅长 Decode 中的注意力计算,一种擅长 Decode 中的前馈网络。
Speculative decoding 能稍微缓解 Decode 的带宽困境。它的思路是“先猜后验”:用一个小模型快速猜出几个 token,再用大模型一次性验证,把原本逐个生成的矩阵乘向量变成矩阵乘窄矩阵。扩散语言模型可能做得更好,一次生成几百个 token 的块。
而 Dally 在对话中说的“Decode 可能分化为注意力专用和前馈专用两种硬件”,黄仁勋已经做成了产品。GTC 2026 上发布的 Dynamo 调度系统把 attention decode 路由给 Rubin GPU,把 FFN 和 MoE decode 路由给 Groq LPU,两种芯片协作处理同一个 token 的同一层,各干自己最擅长的那一半。
4. “别搬数据”:四个字背后的能耗算术
当你把推理优化到极致、batch size 压到最小来追求单用户低延迟时,计算本身已经不是瓶颈了,通信延迟才是。Dally 详细拆解了两层通信开销。
片上通信方面,英伟达正在研究静态调度的设计,取消路由开销、排队和仲裁,让信号以接近光速传播。芯片一角到另一角只需 30 纳秒,而现在的方案要几百纳秒。片外通信方面,过去的高速互连为了最大带宽做了极复杂的数字信号处理和前向纠错,但如果把带宽从每对 400Gbps 降到 200Gbps,这些复杂处理全部消失,只剩下序列化延迟,几个时钟周期就能完成。Dally 说他有信心做到每秒 10000 到 20000 token 的单用户推理速度,前提是用对了架构。
然后他给出了一组让全场安静下来的能耗数字。
用 NVFP4 这种英伟达自研的 4 位浮点精度做一次乘加运算,大约消耗 10 飞焦耳,femtojoule,小数点后面跟 14 个零的那种小。但从 HBM4 外部存储器读取那 4.5 个比特的数据,按每比特 3 到 4 皮焦耳计算,总共约 15 皮焦耳。读一个数字的能耗,是算一次的 1000 倍。
从片上 SRAM 读数据呢?也是大约 10 飞焦耳,和计算本身一个量级。所以核心策略只有四个字:别搬数据。
“有人笑了,但我是认真的。” Dally 说。英伟达在研究的方案是把矩阵的一行直接放在 SRAM 里,激活向量也在旁边,就地做点积运算。1000 次乘加不需要任何数据搬运,最后把 1000 个数缩减成 1 个输出值。
SRAM 虽好,但每比特的面积成本比 DRAM 高一个数量级。真正让 Dally 兴奋的技术是把 DRAM 直接堆叠到 GPU 芯片上方。读 DRAM 的能耗大部分其实不是读存储单元本身,而是把比特从存储位置搬到 GPU 引脚的那段路程。如果 DRAM 就在芯片正上方,比特直接垂直落下来,读取能耗降一个数量级,带宽升一个数量级,总功耗不变但性能大幅提升。Dally 用了一个比喻:像弹珠机一样,把你要的比特往下弹进运算单元。
数值精度的优化空间可能比想象中更大。Dean 问了一个问题:有没有考虑过用 lookup table 做数值表示?每个符号可以精确放在数轴上你想要的位置,但总共只有几个符号可选。Dally 说确实在研究,代价是计算逻辑会更复杂,但在某些场景下值得。
5. 注意力的未来:对万亿 token 做检索,对百万 token 做注意力
模型在变大,注意力窗口也在变长,但离真正想要的规模还差几个数量级。Dean 指出,理想状态是模型能对所有信息做注意力:互联网上所有文档,个人所有邮件和照片。
他给出的方案是分层过滤。先用轻量级检索机制从万亿 token 中筛出大约一万篇文档,总量可能到一两千万 token;然后用稍重一些的机制从中挑出约百万 token 放进上下文窗口,再做全量注意力。本质上是用检索代替注意力来覆盖长尾信息,只在最后一层用全量注意力处理真正相关的内容。
当前的注意力优化方案可以分成两类。一类是分块注意力,把 token 切成比如 128 个一组的块,先粗筛哪些块可能有用,再只对有用的块做全量注意力,仍然是二次复杂度,但常数因子大幅缩小。另一类是聚类注意力,把注意力状态做聚类,只看和当前查询最相近的簇,理论上可以把复杂度从二次降下来。两种方案的共同代价是相对于全量二次注意力会损失一些质量,所以这是一个工程权衡。
Dally 从硬件视角补充了另一层拆解。模型趋势是参数越来越多但越来越稀疏,每次推理只激活一小部分。这迫使硬件设计者在四种资源之间做取舍:算力、内存带宽、内存容量、通信带宽。当模型架构发生变化,比如从 group query attention 换成 multi-head latent attention,这四种资源的最优配比就会跟着变。Dally 坦言没有办法完全预测未来模型需要什么配比,如果差异足够大,英伟达可能会做不同配置的 SKU 来对冲这种不确定性。
6. 数据没有枯竭,训练范式需要重写
Dally 问了一个直接的问题:按照 chinchilla scaling law,一定量的算力应该配多少参数和多少 token 的训练数据,但数据快用完了怎么办?
Dean 先做了一个重要澄清:chinchilla scaling law 针对的是训练效率最优,如果你把推理阶段的性能也算进去,最优配比可能不一样。 业界惯用的“参数量乘以 20 等于 token 数”这条经验法则,在推理成本占比越来越高的时代可能需要修正。
然后他明确反对“训练数据快用完了”的说法。视频和关联音频数据、真实世界的机器人和自动驾驶数据、合成数据,这些都远未被充分利用。Dally 追问:合成数据不就是原有数据的另一种表达吗?Dean 承认存在这个问题,但指出如果生成合成数据的模型本身足够强,产出的数据确实能帮助目标模型。此外,图像模型时代常用的 data augmentation,也就是对现有数据做旋转、裁剪、加噪等变换来扩充训练集,以及 dropout、蒸馏等防止模型过拟合的技术,在 LLM 领域还远未被充分探索。
Dean 接着提出了一个更激进的观点。当前预训练的本质是:随机初始化模型,把它“绑在板子上”,让互联网数据从面前流过,模型被动观察学习,不与世界交互。他认为预训练和后训练之间的界限应该消失。 未来应该在预训练阶段就让模型采取行动,在模拟环境中操作,预测问题的答案,然后根据反馈调整下一步学什么。模型还应该能自主选择接下来看什么数据,而不是被动接受预先排好的顺序。
Dally 直接把这和 AlphaGo 类比:能不能让 LLM 互相对话来提升性能?Dean 觉得方向是对的,但模型要先聪明到一定程度才能从这种交互中获益。“给它看 100 亿个 token 之后,它大概就能做点什么了。”
7. 用 AI 设计 AI 的芯片:80人月变成一个 GPU 跑一晚
训练范式在变,设计训练硬件的方式本身也在变。Dally 介绍了英伟达内部用 AI 做芯片设计的四个层面。
NVCell 用强化学习自动生成标准单元库,也就是芯片中最基础的逻辑积木块。每次换到新的半导体工艺节点,都需要把大约 2500 到 3000 个标准单元移植过去。以前需要 8 人团队花 10 个月,合计 80 人月,现在一块 GPU 跑一晚上就完成,而且在面积、功耗、延迟等指标上达到甚至超过人类设计。
PrefixRL 用强化学习解决 carry look-ahead chain 的设计问题,这是加法器里决定进位信号怎么传播的关键电路,从 1950 年代就开始有人研究。AI 把它当成 Atari 游戏来玩,目标是做刚好满足时序要求、同时面积和功耗最小的加法器。产出的设计人类工程师看着匪夷所思,但指标好了 20% 到 30%。
ChipNeMo 和 BugNeMo 是把通用 LLM 用英伟达所有历代 GPU 的 RTL 代码和架构文档微调后得到的专用模型。RTL 是寄存器传输级,芯片设计中用硬件描述语言写成的源代码,地位相当于软件工程里的源码。这两个模型最大的价值在于充当一个极其耐心的导师:新工程师不用去问资深工程师“纹理单元怎么工作”这类基础问题了,直接问 ChipNeMo,它会详细解释,还能回答追问。Bug 归属判定、报告摘要等重复性工作也由它处理。
探索性架构搜索 是最新的方向。用 agentic 系统提出各种设计方案的参数空间,跑简单的架构实验,缩小设计空间到人类可以审视的规模。Dally 说,从探索阶段结束到最终流片之间,最大的瓶颈是设计验证,这也是他们重点用 AI 加速的环节。“我当然想说一句‘帮我设计新 GPU 吧,我出去滑几天雪’然后回来就好了。但离那一天还远。”
Dean 介绍了 Google 做 TPU 时的协同设计流程。ML 研究者会告诉硬件工程师“我们两三年后可能会大量做这类运算”,硬件工程师看了说“这个我们做不快,但如果改成另一种计算方式呢?”ML 研究者拿到这个约束条件,去做原型验证看是否可行。这种互动有时候会产生一些赌注:在硅片中放一些实验性的加速功能,赌两到四年后会用上。赌对了,某类运算能在硬件上加速 10 到 20 倍;赌错了,那块芯片面积就闲置,损失可控。
8. 网络拓扑:没有一种网络对所有流量模式都好
Dean 提到 Google TPU 使用的是 2D/3D Torus 直连网络,能扩展到数千块芯片,但拓扑结构不同于英伟达基于交换机的全互连方案。Dally 的回应信息量极大,他写过互连网络领域的标准教科书,这个问题正好在他的主场。
如果计算负载局部性强,直连网络效率高,一跳就到邻居。但 MoE 模型的专家分散在各处,需要多跳才能到达目标,这时经过交换机一上一下反而更快。Dally 透露英伟达研究部门曾做过一个实验性推理系统,未量产,采用混合方案:近距离用 flattened butterfly 拓扑做直连,这种拓扑比 Torus 多几条快捷链路、覆盖范围更广;远距离则通过交换机层级处理。
Dean 总结得干脆:“给定一种流量模式,你能找到最优网络。但没有一种网络对所有流量模式都好。”
这句话其实适用于这场对话讨论的每一个层面。推理不是一种计算,需要拆成三种。能耗的解法不是一个策略,需要 SRAM、DRAM 堆叠、数值精度多管齐下。注意力的未来不是一种算法,需要分层检索加分块注意力的组合。训练范式不是一套流程,需要把预训练和后训练的界限打破重来。
9. 教育、医疗,和4万人公司的成长烦恼
两人在 AI 社会影响上有高度共识。个性化教育辅导可以让学习效果提升一到两个标准差。Dean 认为接下来几年完全有可能做出不会直接给答案、但能帮学生更高效掌握概念的 AI 辅导系统。模型的跨模态能力让这件事更可行:有人听播客比读课本更容易理解生物学,有人通过交互式游戏比读公式更容易建立物理直觉。
Dally 则描述了他心目中的 AI 健康教练:一个坐在你肩膀上的小天使,在你第四次走进麦当劳时提醒你拐角有家沙拉店。他承认自己在黄仁勋的活动上只吃到了甜点当午餐,要是有个 AI 教练就好了。Dean 提到他和多位合著者在 2024 年底发布了一篇论文,可以在 shapingai.com 上读到,系统分析了 AI 在就业、教育、医疗、媒体、国家安全、科学等七个领域的潜在影响,并提出了 18 个具体的研究方向。
对话尾声两人聊到了大公司的成长代价。Dally 从 2003 年就开始给英伟达做顾问,当时公司不到 1000 人,决策极快,零官僚。现在 4 万多人,有了规则和层级,但黄仁勋仍然保持了创业公司的氛围。Dean 也有同感:他加入时 Google 员工全挤在 Palo Alto 一间 T-Mobile 店的楼上,现在 18 万人,每次规模翻倍都会让某些原来有效的做法失效。两人的共识是:成长带来了以前做不到的事情,但也要不断想办法避免官僚化吞噬执行力。
这场对话覆盖的技术跨度极大,从飞焦耳级别的能耗计算到万亿 token 级别的注意力架构,从单个加法器电路到整个数据中心的网络拓扑。但贯穿始终的逻辑只有一条:AI 进入推理时代后,过去那种用一种芯片、一套流程、一个架构打天下的思路走到头了。每一个层面都需要拆开来做,每一个层面都需要专门化的解法。黄仁勋在 keynote 上说的“推理拐点”,Dally 和 Dean 在这场对话里给出了它的技术注脚——拐点之后,分化开始。
想要深入探讨更多关于人工智能底层架构与技术演进的话题,欢迎访问 云栈社区 的相关版块,与更多开发者和研究者一起交流。
核心问答
Q1: 推理为什么突然变得比训练更重要?
数据中心 90% 的算力已经花在推理上。随着智能体工作流从分钟级扩展到天级,推理的总量和对延迟的要求同时在飙升。英伟达收购 Groq、拆分推理硬件为多种专用芯片,都是这个趋势的产物。对开发者来说,未来的性能优化重心会从“怎么训得更快”转向“怎么推理得更快更省”。
Q2: 降低 AI 能耗最有效的杠杆是什么?
搬数据的能耗是计算本身的 1000 倍。从片上 SRAM 就地计算能把数据搬运降到零,但 SRAM 面积成本太高。把 DRAM 堆叠在计算芯片正上方是两人都认可的最有前景的方向,能同时提升一个数量级的带宽和降低一个数量级的能耗。更高效的数值表示也是一个杠杆,英伟达的 NVFP4 已经把精度压到 4 位浮点,lookup table 方案可能走得更远。
Q3: 模型自我改进离现实还有多远?
Dean 说“整套流程还没完全到位,但已经能看到苗头了”。现在可以用自然语言告诉模型“去探索这个方向上的改进方案”,它能自主跑几十个实验并做初步筛选。完全自主的“模型设计下一版自己”可能还需要数年,但研究者生产力的提升已经是现实。关键突破点在于:如何把可验证奖励领域的 RL 训练方法扩展到更广泛的、没有标准答案的研究领域。