云栈社区»论坛 › 技术文档「 Note & Doc 」 › SRAM与HBM深度对比：AI推理时代的内存架构选择与性能分析 ...

发回帖发新帖

3831 积分	0 好友	503 主题

发消息

SRAM与HBM深度对比：AI推理时代的内存架构选择与性能分析

发表于 2026-1-16 06:33:16 | 查看: 78| 回复: 0

核心观点： SRAM是AI推理的性能优化手段，而非基础存储方案。在HBM主导的架构中，SRAM更适合作为处理特定低延迟负载的专用工具。受限于容量瓶颈，主流LLM的规模化推理仍必须依赖HBM。

结构特性： 6T结构保障了极低延迟，但也限制了存储密度上限。
成本制约： 无法同时在大容量、高带宽与低成本三个维度上超越HBM。
演进方向： 从单纯增加SRAM容量转向“3D垂直堆叠+分层存储管理”。

1. 核心差异：带宽优势与容量瓶颈

SRAM的核心价值在于高带宽与低延迟。与HBM（1T1C结构）不同，SRAM采用6T晶体管结构，无需周期性电荷刷新，消除了Bank冲突与页缺失导致的延迟。

带宽表现： SRAM集成于逻辑芯片内，带宽随计算单元数量线性扩展，其实际利用率接近100%，而HBM的有效利用率约为80%-85%。
物理限制： SRAM单位面积的存储效率较低。存储1TB数据所需SRAM面积约为HBM的100倍以上，在物理层面受限于单颗芯片的光罩极限（Reticle Limit）。

2. 技术演进：SRAM的微缩限制

在先进半导体工艺下，SRAM的密度提升已显著放缓。

工艺局限： 在3nm/2nm工艺下，逻辑门持续缩小，但SRAM位元（Bitcell）受限于泄漏电流和电压稳定性，尺寸缩减停滞。
面积开销： 由于位元尺寸无法按比例缩小，若要获得GB级存储容量，SRAM将占据过多的芯片面积，从而挤占计算资源，导致单位面积算力（TOPS/mm²）下降。

3. 经济性分析：成本与良率

SRAM在单位存储成本上无法与HBM竞争。

生产成本： 生产逻辑晶圆（用于SRAM）的单片成本远高于DRAM晶圆。
良率影响： 大规模集成SRAM会显著增加芯片缺陷概率，降低整片的合格率。
应用场景： HBM的每GB成本比SRAM低约一个数量级。SRAM方案目前仅适用于参数量较小、对延迟极度敏感的特定领域，如金融交易或小规模模型推理。

4. 产业趋势：3D堆叠与分层存储

SRAM与HBM正从竞争关系转变为互补的分层架构。

分层架构： 新型AI加速器将SRAM作为高速片上缓存，存储KV Cache或激活值，而将大容量的权重参数保留在HBM中。
封装演进： 通过3D V-Cache或3D集成电路（3DIMC）技术，将SRAM垂直堆叠在计算核心之上，在不突破2D平面面积限制的前提下提升带宽与容量。

SRAM芯片与HBM堆栈对比图

最近关于基于静态随机存取存储器（SRAM）加速器的新闻引发了社交媒体上关于内存的热烈讨论。SRAM之所以特别吸引人，是因为它避开了高带宽内存（HBM）和芯片-晶圆-衬底（CoWoS）封装，而这两者目前都面临严重的供应短缺。

然而，公众对于SRAM究竟是什么，以及它与主流HBM解决方案的区别存在诸多误解。甚至有人错误地担心SRAM会削弱未来AI加速器对HBM的需求。

本文将探讨SRAM相对于HBM的优劣势，并对这两种内存在AI推理中扮演的角色提供客观视角。我们将从结构、扩展性、容量、带宽和成本五个维度对比SRAM与HBM。

SRAM概述

SRAM是一种常用于处理器内部的内存形式，无需持续刷新即可存储数字信息。一旦向SRAM单元写入0|1，只要电源供应正常，除非人为更改，否则它会一直保持该状态。

SRAM在计算领域的应用与计算机历史一样悠久。它最常用于寄存器和低级缓存（通常根据与处理器的距离称为L1-L3级缓存）。SRAM的核心吸引力在于其极快的访问速度，能以极低的延迟向处理器提供数据。事实上，目前没有任何内存技术（包括HBM）能超越SRAM的访问速度。

SRAM的超低延迟和低功耗源于它与处理器集成在同一块芯片上。然而，SRAM在性能上的收益是以牺牲存储容量为代价的。在同等芯片面积下，SRAM的存储密度比动态随机存取存储器（DRAM）低5-6倍。而HBM通过垂直堆叠12-16个DRAM Die，进一步拉开了容量差距。实际上，HBM的容量轻松就能达到SRAM的80倍。

与HBM不同，SRAM通常不是独立制造再与GPU共同封装的（虽有例外）。要充分发挥SRAM的性能优势，它必须与处理器集成在同一芯片内。

虽然可以通过在计算芯片上堆叠SRAM芯片来增加容量（如AMD的3D V-Cache技术），但目前还没有像HBM那样实现12-16层SRAM的大规模多层堆叠生产。

单元结构：6T SRAM VS 1T1C DRAM

要真正理解SRAM和DRAM的区别，必须了解它们的基本组件实现方式，以及这与工艺技术的关联。

6T SRAM

典型的SRAM单元采用六晶体管（6T）结构，如下图所示。该结构包含一个由四个晶体管构成的交叉耦合CMOS反相器（称为“双稳态锁存器”），用于维持位状态；此外还有两个NMOS访问晶体管，负责单元的读写操作。这种6T SRAM结构布置在2×2网格中，通过在行与列上施加特定电压来控制状态。访问晶体管的栅极连接至列线（即位线BL、BL'），同时也受行线（即字线WL）的控制。

6T SRAM位单元结构原理图

在6T单元上可执行三种基本操作：保持、读取和写入。

保持（Hold）： 字线置低电平（如0V），关闭访问晶体管。只要Vdd持续供电，双稳态锁存器中的反相器就会锁定其存储的0或1状态。
读取（Read）： 字线置高电平（Vdd），位线（BL/BL'）预充至Vdd。根据内部存储的位值，其中一个访问晶体管会拉低对应的位线电压。感测放大器通过检测哪条位线被拉低，从而判定内部存储的状态。
写入（Write）： 字线置高电平，在位线上强制施加0V或Vdd（并在BL'施加相反电平），强制改变双稳态锁存器的内部状态。

6T SRAM单元的工作状态

这就是SRAM的工作原理：它无需像DRAM那样通过持续刷新来维持电荷，即可实现高速的数据存取。

1T1C DRAM

DRAM单元的内部结构远比SRAM精简，仅由一个晶体管串联一个电容器（1T1C）构成。这种极致的简约性解释了为何在同等芯片面积下，DRAM的存储密度远高于SRAM。

该晶体管为n型MOS器件，作为电容器的开关。当字线电压开启该晶体管时，电容器充电，单元表示位状态1。通常字线电压会高于Vdd（增加一个nMOS晶体管的阈值电压），以确保电容器能充满至Vdd电平。

DRAM单元结构示意图

当字线电压降至0V，访问晶体管关闭，电容器与位线隔离。根据电荷的有无，DRAM单元分别代表1或0。然而，电荷会不可避免地发生泄漏，因此必须定期进行“刷新”以维持数据，这也是“动态”随机存取存储器名称的由来。

DRAM的写入过程非常直接：开启字线，根据写入状态将位线设为Vdd或0V，数纳秒后关闭字线，将电荷封存在电容器中。

读取过程则相对复杂：首先将位线预充至Vdd/2，激活字线开启晶体管。若电容器有电荷（位1），位线电压会略微升高；若无电荷（位0），位线电压则下降。这些细微的电压波动由感测放大器捕获并转换为逻辑位。

工艺与密度扩展

SRAM

尽管6T单元的设计权衡和技术实现极其复杂，但其演进的核心逻辑非常明确：通过缩小晶体管尺寸，在有限的面积内集成更多单元，从而提升内存密度。

在平面晶体管（Planar Transistor）时代，每一代工艺节点的微缩都能显著提升SRAM的内存密度。然而，随着Dennard缩放定律走向终结，亚阈值泄漏电流随晶体管尺寸减小而急剧恶化。亚阈值泄漏反映了晶体管在关断状态下依然存在的电流损失。此外，极小尺寸下的晶体管变异性会显著增加，导致双稳态锁存器稳定性下降，甚至引发意外的位状态翻转。

SRAM位单元尺寸随工艺节点演变趋势图

大约在14nm节点，半导体行业向FinFET架构转型。FinFET通过引入“鳍片”结构增强了对硅沟道的控制，在实现晶体管微缩的同时缓解了泄漏问题，从而推动了SRAM密度的进一步扩展。

然而，在进入5nm/7nm节点后，SRAM的密度缩放开始趋于平缓。一个典型的证据是：台积电的N3E工艺位单元尺寸与前代N5工艺几乎持平（均为0.021μm²），这意味着制程红利在SRAM领域已显著摊薄。

直到台积电N2工艺引入栅极全包围（GAA）晶体管架构，行业才迎来了自N5以来的首次实质性扩展：位单元尺寸降至0.0175μm²，实现了约17%的缩小。相比之下，Intel 18A展示的结果仍维持在0.021μm²。

本质上，SRAM密度已触及当前主流技术能力的瓶颈。SRAM密度每两年翻倍的黄金时代已渐行渐远。目前，业界能达到的最高内存密度约为38Mb/mm²。

DRAM

DRAM中使用的1T1C单元独特设计用于最大化内存密度。DRAM芯片基于专为内存设计的芯片工艺构建，名为1a、1b、1c，这不同于用于SRAM的先进逻辑节点命名（5nm、3nm、2nm）。

内存工艺节点使用高纵横比电容器结构将电容器堆叠在晶体管上方，通常采用高k介电质如铪或锆氧化物，以最大化电容并最小化泄漏。访问晶体管相当于10nm逻辑晶体管或更高，因为单元尺寸的限制因素是电容器，而非晶体管。转向更小通道晶体管会增加泄漏和成本。

DRAM在扩展内存密度方面也有挑战。在过去20年，DRAM单元尺寸一直停留在6F2，其中F是内存单元的半间距。增加DRAM密度需要缩小电容器和晶体管以减少F，多年来在这方面进展缓慢。

6F2与4F2晶体管结构对比

下一个量子跃进将来自4F2单元结构，这意味着内存单元背对背堆叠而无间隙。这需要垂直通道晶体管，可能使用铟镓锌氧化物（IGZO）通道，以及真正的3D DRAM单元。

容量对比

一般而言，在容量方面，所有DRAM技术无论是HBM、LPDDR还是GDDR都优于SRAM。我们上面看到的单元结构根本差异直接影响给定芯片面积中可打包的内存量。以HBM3e为例，密度约为每平方毫米~200 Mb的DRAM，而在台积电的N3E节点，1平方毫米硅片仅能容纳~38 Mb的SRAM。

HBM还受益于垂直堆叠。HBM3e堆栈中的每个DRAM芯片面积为11mm x 11mm，目前容量为3GB（24Gb）。像Blackwell Ultra这样的GPU使用八个12层HBM3e堆栈，总内存达288 GB。

多代GPU HBM内存容量增长柱状图

相比之下，SRAM直接与计算和其他芯片资源竞争芯片面积。每增加一兆字节SRAM都会以计算单元、互连或控制逻辑为代价，使其尺寸成为恒定权衡。因此，即使在大型加速器上，每芯片SRAM通常限于最多几百兆字节。

以下是Blackwell Ultra GPU的芯片照片，显示其组成和竞争芯片面积的各种块。L2缓存使用SRAM构建，使其更大将以图形处理器集群更小和总计算flops更低为代价。

NVIDIA Blackwell Ultra GPU架构框图

容量对模型并行性的影响

现代大型语言模型足够大，即使有HBM可用，也往往需要跨多个GPU或XPU分片，因为内存需求超过单个GPU可用量。两种常见方式是张量并行和流水线并行，它们在如何跨设备分割模型上不同。

张量并行（层内并行）将单个层内的矩阵乘法分割到多个GPU，而流水线并行（层层间并行）将Transformer层本身分割到多个GPU。

层内与层层间并行示意图

实践中，这些策略通常结合使用。例如，LLaMA-405B模型有126层，可能分布在两个DGX-H100节点上，每个节点有八个H100 GPU。在每个节点内使用张量并行，而流水线并行连接两个节点。

分布式DGX节点处理Transformer模型示意图

在基于SRAM的加速器上，相同模型通常分布在更多芯片上，因为每个芯片可用内存有限。这对编译器和运行时提出更高要求，以高效分区和协调跨设备工作，从而变得越来越复杂和低效。

带宽性能

内存带宽等于内存接口宽度乘以数据传输速率。对于任何内存系统，您可以通过使接口更宽（更多并行数据路径）、运行更快或两者结合来增加带宽。在带宽方面，有三个因素使SRAM优于DRAM：

1. SRAM带宽比HBM高出一个数量级

以NVIDIA B200为例：

每个HBM3e堆栈提供~1 TB/s。八个堆栈总计8 TB/s的峰值DRAM带宽。
在GPU基础时钟700MHz下，芯片SRAM有效提供~90 TB/s。这可推导如下：
- 缓存线大小，即SRAM宽度=128字节
- 时钟速度=700MHz，且SRAM可在每个时钟周期访问。
- （128字节缓存线 × 7亿次访问/秒 ≈ ~90 TB/s。）

SRAM提供超过HBM 10倍的带宽，且由于其芯片上并与计算紧密耦合，以更低延迟交付此带宽。

2. SRAM带宽随计算规模扩展，而HBM受引脚限制

由于DRAM芯片外部于逻辑芯片，其性能从根本上受接口宽度限制，更具体地说，受内存与XPU之间实际可行I/O引脚数量限制。无法更快推动每引脚数据速率，而不降低数据流过连接内存芯片与XPU的铜互连的信号完整性。

例如，HBM3e在计算芯片与每个内存堆栈之间使用1024位数据总线，每通道最高9.6 Gbps，产生约1.2 TB/s每堆栈。增加带宽需要更高信号速度或更宽总线，且总线宽度在四代——HBM2、HBM2e、HBM3和HBM3e中保持1024位。只有HBM4才终于将接口宽度加倍至2048位。

SRAM遵循与DRAM不同的扩展模型，因为它直接集成在逻辑芯片上，其带宽不受外部引脚或固定内存接口限制。相反，SRAM带宽主要取决于架构中存在多少实例，以及SRAM与计算的耦合程度。随着新XPU世代添加更多计算单元，设计师可在这些单元附近添加更多分布式SRAM，在不依赖更快信号或更宽芯片外总线的情况下增加聚合芯片带宽。

以下是一个例子：使用8个HBM内存堆栈的XPU有~8 TB/s带宽，必须在所有计算单元间共享。当SRAM以90 TB/s接口带宽附加到每个计算单元时，总内存带宽随计算单元数量增加——每个都有自己的附加SRAM。所以100个核心将有900 TB/s内存带宽。

在GPU中，这种扩展体现在缓存结构如何随计算复制。流式多处理器（SM）是NVIDIA GPU的基本执行单元，每个SM有自己的L1缓存，使用SRAM实现。随着NVIDIA从A100到H100到B200，SM数量从108增加到132再到148。因为每个SM有自己的L1缓存，增加SM数量也增加可并行操作的SRAM访问点。

NVIDIA GPU流式多处理器（SM）结构图

还可以通过拓宽SRAM数据路径来增加带宽，例如增加缓存线宽度或银行数量，进一步提升每个周期交付的数据量。综合这些因素，SRAM带宽可设计为与计算更紧密扩展，而DRAM带宽受芯片外接口和固定引脚数量限制。

3. DRAM理论带宽不等于实际带宽

实践中，DRAM从未交付其全部广告带宽。一部分带宽因DRAM工作固有的结构低效而丢失，包括：

周期性刷新周期
银行冲突
行激活和预充电延迟

DRAM带宽分配示意图

以刷新为例。DRAM单元基于电容器，随着时间泄漏电荷，因此必须周期刷新以保留数据。对于HBM3e，刷新每3900 ns（tREFI）发生一次，其间内存不可用350 ns（tRFC）。这仅占近8%的带宽损失，甚至在考虑任何访问模式或争用之前。

DRAM刷新周期时序图

另一个主要因素是行局部性，通常以页命中和页缺失描述。DRAM组织成行（或页）。当行激活时，其内容加载到感测放大器，允许后续对该行的访问快速进行。如果多个访问命中同一行，激活成本被分摊。但当访问在行间跳转时，当前行必须关闭并激活新行，这是一个昂贵的序列，显著降低有效带宽。

DRAM页命中与页缺失时序对比

然后是Bank冲突。DRAM单元组织成Bank和Bank组，要实现最高带宽，连续内存访问应针对不同Bank组。

DRAM Bank与Bank组组织结构图

如果访问命中同一Bank组内的不同Bank，会引入额外延迟。此行为由时序参数tCCD_S（短列到列延迟）和tCCD_L（长列到列延迟）捕获。

DRAM相同Bank组与不同Bank组访问时序对比

上述三个示例解释了为何DRAM的有效吞吐量往往远低于其理论峰值。

相比之下，SRAM完全不存在这些结构性低效。它没有刷新机制，没有行激活开销，也没有所谓的“页命中”或“页缺失”行为。如果处理器核心能够每个周期发出一次内存请求，SRAM就能每个周期提供一次响应。换句话说，SRAM的可用带宽在效能上几乎等同于其理论带宽。

SRAM与HBM的成本对比

不考虑成本的对比是不完整的。由于HBM供应短缺导致价格飞涨，有人认为SRAM变得更有吸引力。我们来算一笔账：

晶圆与面积效率

SRAM绑定昂贵的前沿逻辑节点（N3/N2），其晶圆价格随节点演进指数级上升。而HBM使用专为密度调优的1a/1b/1c内存节点。N3E下1GB SRAM需要约215 mm2芯片面积，按3nm逻辑晶圆保守成本40美元/mm2计算，硬件成本高达8600美元。而HBM3e每Die密度高（200 Mb/mm2），同等容量下HBM仍比SRAM便宜100-200倍。

系统级思想实验

如果试图用SRAM替换旗舰GPU上的HBM，以实现同等容量（约200-300GB），则需要相当于数个晶圆的SRAM面积。这种“巨型芯片”在物理和经济上都是不可实现的。

芯片尺寸与良率（Yield）

大型SRAM阵列会推动芯片尺寸接近掩膜极限并降低良率，从而倍增每可用位的有效成本。HBM通过TSV垂直堆叠多个较小DRAM Die，虽然TSV重堆栈具有良率挑战，但成本影响在极高位密度中被分摊。

封装与生态成熟度

SRAM层垂直堆叠（如3D V-Cache）在规模上仍昂贵。而HBM的CoWoS级封装已在多代GPU验证，具有成熟供应链和激进的学习曲线优势。

结论：SRAM的经济平衡点

SRAM的真正价值不在于全面取代HBM，而在于针对性的部署：

片上缓存： 优化L1-L3缓存尺寸，减少对DRAM的冗余访问。
低延迟利基推理： 对于参数量小、对延迟极度敏感的模型（如推荐模型、小型LLM、高频交易），SRAM型架构的溢价是合理的。
特定领域加速器： 某些存算一体架构利用适量SRAM绕过HBM瓶颈。

只要前沿逻辑晶圆的每位元成本比DRAM高出一个数量级，SRAM就将始终作为一种奢侈资源存在，用于增强而非规模化取代HBM。推理的未来并非二选一，而是融合：利用3DIMC或3D V-Cache等技术垂直堆叠SRAM与DRAM，在速度与成本之间找到最佳平衡点。

想要与更多开发者交流前沿技术，欢迎访问云栈社区探索更多深度内容。

上一篇：Linux线程与进程的实现原理及性能差异深度解析：从NPTL到现代应用
下一篇：Tensor Core核心解析：NVIDIA GPU矩阵计算硬件加速与架构演进

SRAM, HBM, 人工智能推理, GPU, 半导体工艺