找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3595

积分

0

好友

483

主题
发表于 昨天 18:44 | 查看: 6| 回复: 0

事情是这样的。

Google DeepMind 的两位工程师最近发了篇论文,读完后我盯着屏幕愣了半晌。

Xiaoyu Ma 在 DeepMind 做系统架构,David Patterson 在 UC Berkeley 教计算机体系结构,同时兼任 Google 杰出工程师,更在 2017 年拿到了图灵奖。

这俩人凑一块写的文章,不太可能是唬人的。

论文讨论的,是大模型推理的硬件——不是训练,而是推理。

你可能分不太清这两者。训练就像学生上课:把数据喂给模型,让它学习。推理则是让学好的模型回答问题,好比考试答题。

如今所有人都在聊大模型多厉害,却很少认真想过一个问题:推理太烧钱了。

烧到 OpenAI 一年亏损 50 亿美元,微软在 AI 上砸下的资金更让人倒吸凉气。问题不在于模型不够好,而是现有的硬件架构从根本上就不适合推理。

论文有句话非常直白:在 2025 年的顶级体系结构会议上,产业界的贡献占比已不到 4%。回看 1976 年,这个数字是 40%。

学术界与工业界几乎脱节了。

而他们恰恰认为,推理这个领域最需要产业界的真金白银与学术界的严密思考。


推理为什么这么费劲?

大模型推理有两个阶段:预填充(Prefill)与解码(Decode)。

大模型推理流程:预填充与解码阶段对比,展示KV Cache与各迭代节点生成词元的过程

预填充相当于模型一次性读完你的问题,这是并行的,类似做阅读理解。解码才是真正开始输出答案,一字一字往外蹦,如同写作文。

预填充是计算密集型,解码则是内存密集型。

问题就卡在这里。现在数据中心里跑的 GPU 和 TPU,全都是为训练——或者说为预填充——设计的。它们算力很强,高带宽内存也够大,但这些对解码阶段几乎用错了地方。

解码的时候,模型每次只能吐出一个 token,得反复从内存中取权重和上下文。实际计算量很小,内存访问开销却大得惊人。这好比让一位短跑冠军去翻箱倒柜找东西,他的爆发力完全使不上劲。

更麻烦的是,近年的模型趋势还在不断加剧这组矛盾。

MoE 架构让模型参数膨胀了成百上千倍。DeepSeek v3 有 256 个专家,每次推理只激活一小部分,但权重总量却大得吓人。长上下文让 KV Cache 越来越大——一个 200K 上下文窗口所需内存是普通窗口的几十倍。推理模型还得先生成大量「思考」token 才能给出最终答案,直接把输出长度拉长了数倍。

模型越来越大,上下文越来越长,推理越来越慢。而硬件架构,十年没变过。


一个刺眼的数据

从 2012 到 2022 年,NVIDIA GPU 的浮点运算能力翻了 80 倍。但内存带宽,只涨了 17 倍。

算力在狂奔,内存在散步。

这两者的差距还会越拉越大,因为 HBM 越来越贵。

HBM存储器与ASIC芯片封装结构:顶视图与侧视图展示堆叠布局及硅中介层

HBM,就是现在 GPU 配备的那种高带宽内存,像一摞饼干一样叠在 GPU 附近。

2023 到 2025 年间,每 GB 容量的成本和每 GBps 带宽的成本都涨了 1.35 倍。

HBM各代技术规格对比表:涵盖带宽、容量、引脚数与对应NVIDIA GPU型号

反观普通 DDR 内存,成本却在持续下降。同一时间窗口,容量成本降到了原来的 0.54 倍,带宽成本降到了 0.45 倍。

HBM3e容量与带宽成本随时间变化趋势图:2023至2025年持续上升

数据很说明问题。HBM 并非产能问题,而是物理堆叠难度在攀升。

每个 HBM 封装里 DRAM 芯片数量越来越密,单颗芯片密度也越来越高,良率和封装难度几乎呈指数级上升。而传统硅基内存技术仍沿着摩尔定律稳稳前进。

论文还触及了一个更底层的困境:DRAM 单芯片的密度增长正在减速。2014 年推出的 8-Gigabit DRAM 芯片,到 2026 年才实现四倍增长,这速度比过去每三到六年翻一番要慢得多。

全用 SRAM 替代 DRAM 的方案同样走不通。

Cerebras 和 Groq 都曾尝试用超大芯片塞满 SRAM 来绕开 DRAM 和 HBM。结果呢?大模型一上线,片上 SRAM 的容量根本不够用,两家最后都不得不 retrofit 外挂 DRAM。

硬件这条路,不是换条道就能抄近道的。


真正有价值的部分:四个破局方向

两位作者提出了四项有前景的研究方向,每一个都直指推理硬件的核心痛点。

1. 高带宽闪存(HBF)

这个概念最早由 SanDisk 提出,SK 海力士随后加入。做法简单粗暴:把闪存芯片像 HBM 一样堆叠起来,获得接近 HBM 的带宽,而容量则是 HBM 的十倍以上。

高带宽闪存对比3D计算-存储堆叠:HBF与HBM堆栈侧视结构图

一块 HBF 封装有 512GB 容量,读取带宽可达 1638 GBps。对比之下,HBM4 的带宽同样是 1638 GBps,容量却只有 48GB。容量差出十倍以上,读取带宽却打平了。

功耗方面,一块 HBF 封装不超过 80 瓦,HBM4 是 40 瓦。单看 HBF 功耗更高,可一旦考虑容量差距,每 GB 的功耗 HBF 反而更低。

论文作者粗算了一笔账:用 HBF,推理系统的整体尺寸可以大幅缩小。模型权重能全部加载进一个更紧凑的系统,芯片数量减少,通信开销降低,可靠性提升,数据中心的空间和电力预算也能喘口气。

HBF 当然不是银弹。闪存写入寿命有限,每次读写粒度是页面级别而非字节级别,延迟比 DRAM 高好几个数量级。因此它只能存那些不常变动的数据:模型权重、知识库语料、代码仓库。而每次推理都要更新的 KV Cache,还得靠 DRAM。

HBF与HBM、DDR、LPDDR及闪存性能对比表:容量、带宽、功耗、延迟等指标

但这恰恰显出 HBF 的精明之处——它不试图包办一切,而是找准自己最舒服的生态位。

一个网页搜索 AI 系统,背后可能存储了数十亿份网页文档,这些文档并不会每天刷新。一个代码辅助 AI,背后有数十亿行代码,也不会每天全量更新。一个科研辅导 AI,背后是数百万篇论文。这些全是「慢变上下文」。

HBF 可以把这些一次性加载、反复读取、几乎不改动的数据,用极低的空间成本塞进去。

2. 近存计算(PNM)

这个词听起来绕口,说通俗点就是:在内存边上放一个小处理器,让数据不必跑远路去计算。

这里要分清两个概念:PIM 是把处理器和内存做在同一颗芯片里;而 PNM 则是把处理器和内存分居不同芯片,但挨得很近。

论文作者特意强调这层区别,因为二者差异巨大。PIM 将计算逻辑塞进 DRAM 工艺节点,功耗和面积效率都很差。PNM 用的是独立芯片,可以选择更成熟的逻辑工艺,散热也更容易控制。

PNM 不需要像 PIM 那样把 LLM 的结构切成 32 到 64MB 的小块。因为内存和逻辑不在同一个 die 上,数据能按更大粒度来划分。这对 LLM 推理来讲太关键了。

处理内存内与近内存技术对比表:带宽、功耗、逻辑耦合、密度等多项指标比较

已经有公司开始往这个方向走了。AMD 提出了 DRAM 与逻辑芯片 3D 堆叠的方案,三星做了 AXDIMM 将计算逻辑集成进 DIMM 缓冲芯片,Marvell 的 Structera 则用 CXL 接口实现了 DDR 与处理器的连接。

3. 3D 内存逻辑堆叠

这个方向更激进——它不把处理器搁在内存边上,而是直接把处理器芯片垒在内存芯片头顶,用硅通孔 TSV 做垂直连接。带宽和密度都远超 2D 平面布局。

这条路有两种实现选择:一是复用 HBM 设计,把计算逻辑塞进 HBM 的基座芯片,好处是接口不用动,带宽与 HBM 相同,但数据路径变短,功耗降低两到三倍。另一种是定制化 3D 方案,用更宽的接口和更先进的封装技术,带宽和能效可以超越 HBM 本身。

挑战当然也很大。3D 堆叠的散热是硬骨头——计算芯片趴在上面,表面散热面积反倒更小。论文给出的解法是降低时钟频率和电压。反正 LLM 解码阶段的计算强度本来就不高,用低频换散热,是完全可接受的妥协。

4. 低延迟互连

前面三个方向都聚焦在单颗芯片或单个节点上。这个方向解决的是多芯片之间的通信问题。

训练阶段的超算追求的是带宽,得传输海量的梯度数据。但推理阶段完全是另一回事:每次推理请求的数据量很小,频率却极高,这时候延迟比带宽重要得多。

论文提出了几个有意思的思路。高连通性的拓扑结构——比如树形、dragonfly 和高维环形——可以减少通信跳数从而压住延迟。即便带宽因此有所损失,推理对延迟的敏感度也远高于带宽。

网络内计算也是个方向。LLM 使用的集合通信操作,如广播、all-reduce、MoE 的调度分发,在网络层直接进行聚合,可以大幅削减延迟与带宽开销。NVIDIA 的 NVLink 和 Infiniband 交换机已经支持 in-switch reduction。

甚至有个更反直觉的想法:如果 LLM 推理不需要完美通信呢?当消息超时,用近似结果或之前的缓存值来替代,而不是空等慢速消息抵达。论文认为这可以在不大牺牲质量的前提下,显著压缩延迟。

其实这想法背后的逻辑很值得琢磨:我们习惯了通信必须可靠完整,可大模型推理的特性恰恰是输出本身就有不确定性。假如消息延迟造成的精度损失,比模型自身的不确定性还小,那何乐而不为呢?


读到这里你可能发现了一个规律:这四个方向都不是要制造更彪悍的计算芯片。它们全都指向同一个思路——

别再堆算力了,去解决内存和通信的问题。

过去十年,AI 硬件的进化方向过于单一:更大的芯片、更多的核心、更高的 FLOPS。训练阶段确实需要这些,因为矩阵乘法是计算密集型的。但推理阶段,特别是解码阶段,核心瓶颈从来不是算力,而是内存带宽、内存容量和通信延迟。

继续用训练芯片做推理,就像开一辆 F1 赛车去送外卖。引擎确实猛,可载货空间不够,油耗太高,在城里同样跑不快。

论文作者最后提出了一个建议:整个计算机体系结构的研究社区,需要一套基于 roofline 模型的性能模拟器,专门用于评估推理场景下的内存与通信优化。这算不得全新想法,只是这些年来大家太容易被算力牵着走——缓存设计、分支预测这些传统体系结构问题,都是靠着真实模拟器才得以突破的。推理硬件领域不缺想法,缺的是系统化的评估手段。

这篇论文本身即是一次重新连接的努力:用产业界的真实数据、真实痛点去激发学术界的研究灵感,再用学术界的严谨方法,回应一线用户正面临的工程难题。

这可能正是 AI 硬件未来所需要的东西——不是某个人或某家公司单打独斗,而是把产业和学术重新捏合在一起,用更务实的方法,来解决真正卡脖子的问题。

你可能还会对云栈社区上关于 AI Infra 技术趋势 的更多内容感兴趣,那里有不少同路人在讨论类似的话题。




上一篇:400G光模块选型指南:QSFP-DD、QSFP28、OSFP全面对比
下一篇:谷歌亚马逊开卖自研AI芯片,英伟达一家独大时代终结?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-6 00:06 , Processed in 0.801927 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表