云栈社区»论坛 › 站务中心「 Forum Service 」 › AI加速器性能瓶颈：内存墙与互联架构如何定义下一代芯片？ ...

发回帖发新帖

5103 积分	0 好友	676 主题

发消息

AI加速器性能瓶颈：内存墙与互联架构如何定义下一代芯片？

发表于 3 小时前 | 查看: 2| 回复: 0

现在一谈到大模型训练，大家第一反应就是算力不够，得堆更多更猛的核心。但说实话，当下 AI 加速器的性能瓶颈，早已不是计算单元本身，而是内存子系统和互联架构。它们正悄悄决定着一块芯片的真实战斗力。

1. 先理清谱系：AI加速器是如何一路演进过来的

AI 硬件的发展路径其实相当清晰，遵循着一条从“通用”迈向“专用”的轨迹。

最早大家都用 CPU 跑 AI。CPU 天生为灵活处理各种逻辑任务而生，但面对大模型所需的海量并行矩阵运算，它的架构就显得格格不入了，效率非常低。

紧接着 GPU 站上了舞台中央。GPU 本来是为图形渲染设计的，骨子里就带着几千个简单核心做大规模并行的基因，恰好踩中了 AI 训练的节拍。再加上 CUDA 这套极其成熟的软件生态加持，直到今天它依然是大模型训练场的绝对主力。

再往后，专用 AI 加速器开始群雄逐鹿：谷歌推出了 TPU，苹果、华为等厂商纷纷自研 NPU。它们的共同思路，就是把 AI 场景下最高频的矩阵乘法、卷积等运算直接固化到硅片里，死磕吞吐量和能效比。甚至出现了像 Cerebras 那样“丧心病狂”的方案——把一整块硅晶圆直接做成一颗芯片。

计算芯片演进历程：从CPU通用处理器到GPU并行图形处理器，再到TPU/NPU人工智能专用处理器，最终走向Custom ASIC晶圆级定制专用集成电路，各阶段分别标注2000s、2010s、2020s

AI 加速器从通用 CPU 到专用晶圆级芯片的进化路线

发展到今天，业内通常将 AI 加速器归为五大流派：

通用 GPU：浮点吞吐能力猛，编程又灵活，训练、推理通吃，仍是当下市场的绝对主力。
TPU 类定制 ASIC：专为张量运算优化，利用脉动阵列和低精度计算换取极高能效，多部署在云端数据中心。
NPU：为端侧和移动设备量身打造，主打低功耗推理，你手机里的 AI 引擎基本都属此类。
定制化 ASIC：路线更极致的专用方案，涵盖存内计算芯片、可重配置数据流单元、晶圆级引擎等。
FPGA：可重构是其灵魂，非常适合模型快速迭代，只是峰值吞吐量拼不过 ASIC 和 GPU。

从市场趋势来看，GPU 靠着完善的生态依然在训练市场占据统治地位，但 ASIC 和 NPU 在推理与端侧场景中的存在感正变得越来越强。尤其随着大模型体量急速膨胀，业界对更高内存带宽、更低延迟、更高能效的饥渴感，正倒逼着内存和互联架构飞速迭代。

2. 核心矛盾：那道越来越宽的“内存墙”

什么叫内存墙？

简单讲，就是处理器的算力增长速度，始终远远甩开内存带宽的增长速度。两者之间的鸿沟越来越大，数据困在存储器里根本来不及喂给计算单元。这样一来，计算核心再多，也只能干瞪眼，空转等待。这才是 AI 加速器目前最大的性能瓶颈。

处理器速度与内存带宽的性能差距随时间不断扩大，形成内存墙，横轴为年份从1990到2020，纵轴为性能

内存墙：处理器速度与内存带宽之间的鸿沟随时间持续拉大

为了填补这道要命的“内存墙”，如今的 AI 加速器在内存和互联上可谓绞尽脑汁，搞出了一系列创新：HBM、NoC、3D 堆叠、近存/存内计算，乃至多芯片互联（Chiplet）等等。我们来逐个拆解。

高带宽内存 HBM：已成 AI 加速器的标配

HBM 的本质，就是把内存颗粒垂直摞起来，利用硅通孔（TSV）技术将每一层紧密连接，再与计算芯片做贴身集成。

这种 3D 堆叠的方式，极大缩短了数据传输的物理路径，比起传统的 DDR、GDDR，不仅带宽高出一大截，功耗也更低。

HBM 3D堆叠结构示意图，多层DRAM通过硅通孔TSV垂直连接到下方的逻辑芯片或中介层

HBM 的 3D 堆叠结构：多层 DRAM 通过 TSV 与底层逻辑芯片相连

HBM 已经迭代了多代，参数跃升非常明显：

HBM各代技术参数对比表格，包括HBM1到HBM4的数据速率、接口位宽、带宽、堆叠高度和最大容量

目前最新的 HBM3E 已实现单堆栈超过 1.2TB/s 的带宽，而 HBM4 更将接口位宽直接翻倍，能跑出 2TB/s 的单堆栈带宽，并已应用于最新一代的 AI 加速卡上。

当然，HBM 也并非完美无瑕：3D 堆叠密度太高导致散热困难，制造工艺极其复杂，成本自然也远高于传统内存。要用好 HBM，还需要 CoWoS、InFO 这类先进封装技术的默契配合，对供应链的要求相当严苛。

片上网络 NoC：千军万马如何统一调度

当前 AI 加速器动辄集成几十万甚至上百万个计算单元，这些核心之间如何高效通信？靠的就是片上网络 NoC。

主流的 NoC 拓扑结构包含几种：网状（Mesh）、环面（Torus）和分层（Hierarchical）结构，通常会搭配模块化的“拼砖”式设计，以便灵活地放大芯片规模。

两种NoC拓扑结构对比，左侧为Mesh NoC网格状连接，右侧为Hierarchical NoC树状分层连接

AI 加速器常用的两种 NoC 拓扑：左侧为 2D 网状，右侧为分层拓扑

网状拓扑配合模块化 tile 的好处是设计规整、易于扩展，还能实现精细化动态功耗管理：空闲的 tile 可直接断电，能省下不少功耗。

但缺点也很直接：芯片做大后，两个远端核心通信要跨越很多跳，延迟会随之飙升。而分层或混合拓扑正是为了解决这个痛点，通过优化局部通信、减少全局通信的频次来降低开销，当然，设计复杂度也会水涨船高。

值得一提的是，新兴的 Chiplet 架构已将 NoC 的概念外延到了芯片之间，利用 UCIe 这类开放标准，实现芯粒间的高带宽互联，这个我们后面再细聊。

3D 堆叠计算：从堆内存走向堆算力

3D 堆叠不仅能用在内存上，还能将多个计算芯片垂直集成，通过 TSV 实现超高密度的垂直互联，能提供超过 1TB/s 的互联带宽，远超传统方案。

目前主流的 3D 集成方案有三种：

三种半导体封装技术对比：3D TSV堆叠、2.5D硅中介层集成、引线键合堆叠

三种常见的 3D 集成方案对比：3D TSV 堆叠、2.5D 中介层、引线键合堆叠

3D TSV 堆叠：芯片直接面对面堆叠，用 TSV 垂直连接，带宽最高，但散热和良率问题也最棘手。
2.5D 硅中介层：将多颗芯片（比如 GPU 和 HBM）并排放置在硅中介层上，靠中介层内的高密度走线互联。这是目前 HBM 搭档 GPU 的绝对主流方案，NVIDIA 的 A100、H100 都是这么做的。
引线键合堆叠：芯片堆叠后利用导线连接，带宽低、延迟高，在先进 GPU 领域已基本被淘汰。

总的来看，3D 堆叠能带来更高的带宽和更紧凑的尺寸，但代价是设计更复杂、成本飙升、散热挑战巨大。行业正在积极探索微流道散热、背面供电等新技术来应对这些难题。

近存计算与存内计算：把算力搬到数据家门口

解决数据移动能耗问题，最直接的思路就是让计算去“找”数据，而不是让海量数据长途跋涉去“找”计算。这里分出了两条路径：近存计算（NMC）和存内计算（IMC）。

三种计算架构对比：传统分离架构高能耗，近存计算NMC低能耗，存内计算IMC效率提升10-100倍

三种架构对比：从传统分离式，到近存计算，再到存内计算

近存计算就是把计算单元摆在内存旁边，例如在 HBM 的逻辑芯片里集成计算单元。这样能以较成熟的技术拿到高带宽、低延迟的好处，目前已有商用产品落地。

存内计算则更激进，直接在内存单元内部执行计算。比如利用 SRAM 或新型非易失性存储器，在原位完成矩阵向量乘法，能效比可达传统设计的 10 到 100 倍。但存内计算目前仍面临精度、扩展性以及与数字逻辑协同设计等多重挑战，距离大规模商用还有一段路要走。

多芯片互联：Chiplet 时代的高速公路

如今，将多个小芯片（Chiplet）集成在同一封装内已成为主流范式，封装内的互联技术自然成了胜负手。

目前几种主流方案包括：提供高密度布线的硅中介层，适用于 2.5D 集成；成本更优的再分布层（RDL）中介层，能保持不错的带宽和信号完整性；此外，还有 UCIe 这类开放标准，以及 NVLink、Infinity Fabric 等私有协议，它们的目标都是实现 Chiplet 之间的高速、低延迟通信。

眼下，RDL 中介层和 UCIe 等开放标准正日益升温，因为它们制造难度相对较低，生态支持好，能让更多公司参与到 Chiplet 方案的创新中来。

3. 全新分类框架：从内存和互联重新审视加速器

以往我们给 AI 加速器分类，习惯盯着计算架构（SIMD 还是脉动阵列）、应用场景（训练还是推理）或者芯片类型（GPU/TPU/NPU）。

但现在，内存和互联已经实质性地决定了 AI 加速器的最终性能。因此，一个全新的三维分类框架应运而生，它的三个坐标轴分别是：

内存架构：涵盖内存的层次、带宽以及与计算的距离，例如片外传统显存、HBM、近存、存内等。
互联拓扑：指片上和封装内网络的结构与可扩展性，如总线、网状、分层、Chiplet 互联、晶圆级互联等。
集成策略：描述计算与内存在物理上是如何结合的，比如单芯片、2.5D 中介层、3D 堆叠、晶圆级集成等。

AI加速器三维分类框架示意图，三个坐标轴分别为互连拓扑从总线到网状到层次结构，存储器架构从片外DRAM到HBM到IMC，集成策略从单片集成到3D到2.5D

AI 加速器三维分类框架示意图

基于这个框架，我们可以将所有 AI 加速器清晰划分为六大类：

类别	内存架构	互联拓扑	集成策略	典型例子
A 类	片外 DRAM（DDR/GDDR）	总线 / PCIe	单片 SoC	早期 GPU
B 类	2.5D HBM（TSV）	网状 NoC	中介层集成	NVIDIA H100、AMD MI300
C 类	3D 堆叠 HBM / 近存计算	分层 NoC	3D TSV 堆叠	新一代近存加速芯片
D 类	存内计算	Tile 分片 NoC	单片 / Chiplet	存内计算 AI 芯片
E 类	Chiplet	UCIe / 定制互联	多芯片封装	新一代 Chiplet AI 加速器
F 类	晶圆级 SRAM / 近存	晶圆级网状 NoC	晶圆级集成	Cerebras WSE

不同类别的权衡取舍 (trade-off) 非常清晰：

A 类受限于低带宽和差扩展性，内存读写已成为系统瓶颈。
B 类是当下的主流，带宽高、能效好、扩展性也不俗，只是面积效率一般。
C 类比 B 类带宽和能效更优，扩展性与之持平。
D 类拥有极端高的局部带宽和最佳能效，但现阶段扩展性是个短板。
E 类在带宽、能效、面积效率和扩展性上都表现均衡，尤其是扩展性最佳，代表了未来的演进方向。
F 类的带宽高得离谱，扩展性不受制约，能效也很好，但面积效率极低，成本更是天文数字。

雷达图对比B类HBM/2.5D和F类晶圆级方案在带宽、成本、可扩展性、面积效率、功耗效率五个维度的差异

B 类 HBM GPU 与 F 类晶圆级加速器的多维 trade-off 对比

这个分类框架的核心价值在于，它将过去大家聚焦的计算核心放到次要位置，转而抓住当前 AI 加速器最底层的核心矛盾——内存与互联。无论是做学术研究还是产品规划，都能借此更清晰地对比不同设计，选准技术航向。

4. 极端案例：Cerebras 晶圆级引擎强在哪？

Cerebras 的 WSE 晶圆级引擎是 F 类的典型代表，它的设计思路与传统 GPU 大相径庭。

最新的 WSE-3 采用台积电 5nm 工艺，规格极其夸张：4 万亿晶体管、90 万个 AI 优化核心、44GB 片上 SRAM，内存带宽高达 21PB/s，FP16 峰值算力达 125PFLOPS，可原生支持高达 24 万亿参数的超大模型。

Cerebras WSE-3芯片布局示意图，圆形晶圆上布满90万核心和44GB SRAM，虚线划分出视场边界

Cerebras WSE-3 晶圆级架构：整片晶圆即一个芯片，网状互联跨越所有光罩边界

它在内存和互联上的创新非常独到：

首先，在整个晶圆上构建了一张全覆盖的 2D 网状 NoC，将原本用于切割芯片的划片槽改造成了跨光罩的通信线路，实现了全晶圆所有核心的无缝互联，兼具低延迟和高带宽。
其次，采用计算与内存分离的架构。与传统 GPU 将计算与 HBM 紧耦合不同，WSE 将计算置于晶圆之上，而将内存放在外部的 MemoryX 模块中，使得内存容量可以独立扩展，非常适合承载巨型模型。
第三，通过层间流水线执行，即整个晶圆一次集中处理模型的一层，处理完毕再流向下一层。这最大化利用了数据局部性，显著减少了同步开销。

我们拿它与 H100、B200 做个参数对比，差异一目了然：

参数	WSE-3	H100 SXM	B200
芯片面积	46,255 mm²	814 mm²	≈1,600 mm²
计算单元	90 万 AI 核心	132 SM / 16,896 CUDA 核心	—
片上内存	44 GB	50 MB	—
内存带宽	21 PB/s	3 TB/s	8 TB/s
FP8 算力	250 PFLOPS	64 PFLOPS	216 PFLOPS
系统功耗	23 kW	700 W	1,000 W
系统价格	200~300 万美元	2.5~3 万美元	4~5 万美元

能够看到，WSE-3 的内存带宽比主流 GPU 高出好几个数量级，能处理超大模型而无需过度切分，效率极高。但它的短板同样突出：制造难度巨大，成本奇高，功耗惊人，注定了它只适用于极少数特定场景，难以普及。

5. 未来航向：AI加速器将驶向何方？

展望 2030 年，几个关键技术方向的发展节奏已十分清晰：

AI加速器关键技术发展趋势预测图，显示HBM带宽、3D集成、Chiplet/UCIe、存内计算/近存计算、晶圆级引擎从2020到2030年的上升趋势

AI 加速器关键技术到 2030 年的进化趋势预测

第一，Chiplet 架构会加速普及。开放的 UCIe 标准已经成熟，它能实现多厂商异构集成，提高良率并增强供应链韧性，正逐步蚕食传统单芯片设计的固有地盘。

第二，先进封装将持续进化。RDL 中介层、混合键合、3D 堆叠等技术，会继续推高集成度、带宽和供电效率，同时成本也将逐步下探。

第三，近存与存内计算会获得更高关注度。数据移动的能耗瓶颈是产业顽疾，这类能从根本上缓解该问题的架构，天然适用于端侧低功耗场景，接下来渗透率会稳步提升。

第四，晶圆级和资源解耦架构将得到持续探索。Cerebras 已经蹚出了一条路，内存池化等资源池化技术也逐渐成熟，能为超大规模模型提供新的扩展思路。

最后，软件生态永远是决定性的一环。无论硬件创新多么惊艳，最终能否成功取决于有没有配套好用的软件栈、编译器、框架，能否将硬件优势淋漓尽致地发挥出来，并最大限度降低用户的使用门槛。

6. 总结

当下 AI 圈子都在死磕算力，比拼核心数量，但我们必须清醒认识到：内存和互联，才是今天 AI 加速器设计的核心战场。算力堆得再足，倘若数据“运”不出来，一切都是空中楼阁。

这个新的三维分类框架，将 AI 加速器的设计焦点从“计算中心论”转向“内存互联中心论”，恰与当前大模型越做越大的行业趋势严丝合缝。无论是研究者还是一线从业者，都能用这个框架更透彻地对比不同设计，做出更明智的技术抉择。

从 HBM 到 3D 堆叠，从 Chiplet 到晶圆级引擎，所有技术创新的本质，都在试图回答同一个问题：如何让数据更快、更省电地流向计算单元。未来 AI 硬件能走多远、能攀多高，很大程度上就看内存与互联技术能突破到什么程度。这就像一场接力赛，算力的双腿再强壮，也离不开内存与互联这双跑鞋。当业界都在为算力欢呼时，真正懂行的人早已将目光投向了那个更安静的战场。

本文参考资料: https://doi.org/10.36227/techrxiv.177102159.95058346/v1

上一篇：Anthropic最强AI模型Claude Mythos：为何能自动挖掘零日漏洞却不公开
下一篇：谷歌第八代TPU拆解：Agentic AI时代，为何分TPU 8t与TPU 8i两款芯片？

AI加速器, HBM, 内存墙, 存内计算, Chiplet