打开AMD或Nvidia最先进的AI产品包装,你会发现一个熟悉的布局:GPU两侧是高带宽内存(HBM),这是目前最先进的内存芯片。这些内存芯片尽可能靠近它们所服务的计算芯片,以减少AI计算中最大的瓶颈——将每秒数十亿比特的数据从内存传输到逻辑电路所需的能量和延迟。
但是,如果将HBM堆叠在GPU顶部,进一步拉近计算和内存的距离,又会怎样呢?
Imec近期利用先进的热模拟技术研究了这种情况,并在2025年12月举行的IEEE国际电子器件会议(IEDM)上公布了结果。结果令人沮丧:3D堆叠会使GPU内部的工作温度翻倍,导致其无法正常工作。但由Imec的James Myers领导的团队并没有就此放弃。他们找到了一系列工程优化方案,最终可以将温差降低到几乎为零。
一种革命性的方案
Imec首先对一个GPU和四个HBM芯片进行了热模拟,模拟的是目前常见的封装形式,即所谓的2.5D封装。也就是说,GPU和HBM都位于称为中介层的基板上,彼此之间的距离非常小。这两种芯片通过集成在中介层表面的数千个微米级铜互连线连接。
在这种配置下,模型GPU的功耗为414瓦,峰值温度略低于70°C——这是处理器的典型温度。内存芯片的功耗约为40瓦,温度略低一些。热量通过封装顶部的液冷散热,这种液冷方式在新型AI数据中心中已十分常见。
“虽然目前仍在采用这种方法,但它未来的扩展性并不理想——尤其因为它会遮挡GPU的两侧,限制封装内部GPU之间的连接,” Imec高级研究员陈宇凯在IEDM大会上告诉工程师们。相比之下,“3D方案可以带来更高的带宽、更低的延迟……最重要的改进在于封装尺寸。”
不幸的是,正如陈和他的同事们发现的那样,最直接的堆叠方式,即简单地将HBM芯片放在GPU顶部,并在中心添加一块空白硅来填补空隙,会导致GPU的温度飙升至惊人的140°C——远远超过典型GPU的80°C限制。
Imec团队着手尝试一系列旨在降低温度的技术和系统优化方案。他们首先尝试的是去除一层多余的硅片。要理解其中的原因,首先必须了解HBM究竟是什么。
这种内存由多达12个高密度DRAM芯片堆叠而成。每个芯片都薄至几十微米,并布满了垂直连接。这些薄芯片彼此堆叠,并通过微小的焊球连接,而这堆内存又垂直连接到另一块硅片,称为基片。基片是一个逻辑芯片,用于对数据进行多路复用,并将数据压缩到数量有限的导线中,这些导线能够穿过毫米级的间隙连接到GPU。
但由于HBM现在位于GPU顶部,因此不再需要这样的数据泵。数据位可以直接流入处理器,而无需考虑芯片侧面有多少根导线。迈尔斯表示,当然,这一改变意味着要将内存控制电路从基础芯片移到GPU中,从而改变处理器的布局。但他认为应该有足够的空间,因为GPU不再需要用于解复用传入内存数据的电路。
去掉内存这个中间环节,温度只降低了不到4摄氏度。但重要的是,它应该能大幅提升内存和处理器之间的带宽,这对于团队尝试的另一项优化——降低GPU速度——至关重要。
这似乎与提升人工智能计算能力的初衷背道而驰,但在这种情况下,这反而成为一种优势。大型语言模型属于所谓的“内存密集型”问题,也就是说,内存带宽是主要的限制因素。但迈尔斯团队估计,在GPU上采用3D堆叠HBM技术可以将带宽提升四倍。
有了这额外的性能提升空间,即使将GPU时钟频率降低50%,仍然能够带来性能提升,同时还能将温度降低20摄氏度以上。实际上,处理器可能不需要降低这么多。迈尔斯表示,将时钟频率提高到70%只会使GPU温度升高1.7摄氏度。
温度大幅下降的另一个原因是提高了HBM堆叠层及其周围区域的导热性。这包括将四个堆叠层合并成两个更宽的堆叠层,从而消除一个散热区域;减薄堆叠层顶部通常较厚的芯片;以及用空白硅片填充HBM周围的更多空间以增强导热性。
经过上述所有措施,堆叠芯片的运行温度约为88°C。最终的优化使温度降至接近70°C。通常,芯片约95%的热量是从封装顶部散发的,在本例中,顶部由水带走热量。但如果在底部也采用类似的冷却方式,堆叠芯片的温度最终会再降低17°C。
Myers表示,尽管在IEDM上展示的研究表明,GPU搭载HBM内存或许可行,但这未必是最佳选择。“我们正在模拟其他系统配置,以帮助我们确定这是否是最佳方案,”他说道。“GPU搭载HBM内存引起了一些业内人士的兴趣,”因为他认为这种方式能让GPU更靠近散热系统。但这很可能是一个更复杂的设计,因为GPU的电力和数据必须垂直流经HBM才能到达GPU。
关键是解决逻辑上 HBM 的问题
所有科技大会的演讲都强调了一点,那就是人工智能工作负载正不断超越现有硬件能力。
具体来说,人工智能加速器在各个方面都同时触及了物理极限,包括功耗密度、内存带宽和复杂性。尽管沿用已久的2.5D共封装HBM模型仍然占据主导地位,但一些人认为它存在局限性,因此将加速器和HBM以3D方式结合的概念开始受到关注。
随着内存堆叠技术的进步,在提高内存带宽的同时保持效率,业界面临的挑战也日益凸显,因为我们对高性能、高效率计算的需求也在不断增长。

在迈向逻辑芯片上集成HBM的时代之际,如上所述,imec携一篇论文亮相IEDM 2025,该论文标题就提出了一个大胆的论断:“突破GPU上3D HBM集成中的热瓶颈”(Breaking Thermal Bottleneck in 3D HBM-on-GPU Integration)。如此大胆的论断需要强有力的证据,而这个标题立刻吸引了我们的目光。
imec在会议上发表了一篇论文,称其已规划出一条可行的散热方案,可将HBM完全堆叠在加速器顶部,并解答了目前高性能领域最大的疑问之一:业界能否在不使硅片“烤焦”的情况下,真正实现3D GPU封装?imec的答案基本是肯定的,但需要进行重大变革。这些变革包括大幅调整布局,而这可能并非简单的“乐高积木式”搭建就能解决的问题。
第一步:制定一些基本规则
在深入探讨imec为验证真正的3D HBM-on-GPU堆栈而制定的众多缓解策略之前,了解他们所使用的基准至关重要。该研究采用复杂的理论多物理场模型,创建了一个详细的热流模板,用于模拟3D GPU的运行状态。这意味着一个功耗约为400W的高性能计算芯片,包含多个12层HBM堆栈。模拟比较了使用四个传统内存模块以及用于散热的传统液冷散热板的不同配置。

基准方案将这四个堆叠体置于传统的2.5D配置中,每个HBM堆叠体下方都有一个类似HBM4的基础芯片。在这种配置下,仿真结果显示GPU峰值温度为69.1ºC,HBM芯片在最坏情况下温度约为60ºC。

考虑到此类设计产生的热量,imec为此项(以及论文中的其他数据)设计的冷却方案特意做到了充分散热。顶部安装了一块液冷板,其额定功率为每开尔文温差30瓦/平方厘米。这代表了当今高端AI推理巨型系统中可能采用的最佳冷却方案。
为什么2.5D HBM封装无法进一步扩展
只要仔细观察硬件的物理布局,就能很容易地发现当前2.5D GPU设计的局限性。在当前一代产品中,HBM内存堆叠位于GPU周围,并覆盖在GPU四个边缘中的两个边缘之上。从设计角度来看,这种布局已经接近极限。每个HBM内存堆叠都会占用一部分布线空间和海岸线,从而阻碍其他I/O连接的直接连接,例如GPU之间的直接连接。
更重要的是,它限制了单个封装上可以放置的计算单元数量。即使是NVIDIA最大的多芯片加速器仍然受到这种设计限制,因为限制单个封装上可实现扩展程度的,本质上是中介层,而不是硅片本身。

与论文图1b所示的3D变体类似,堆叠HBM为未来的扩展提供了更大的空间。内存堆栈与位于封装中心的GPU芯片更加垂直对齐。将HBM直接放置在GPU上方,可以释放芯片周围的I/O空间,从而实现更紧密的多GPU连接,并将HBM堆栈到GPU单元的距离缩短至几乎为零。
这种设计在过渡到3D堆叠时最大的问题或许在于其散热性能会迅速下降。将四个12层高的HBM堆叠(以目前的HBM3e为例,待机功耗约为4 x 25W = 100W,满载功耗约为150W)堆叠在一个~400W的图形芯片上,会造成严重的散热问题。它非但不能有效散热,反而会把我们闪亮的“石头”(指显存)烤焦。

采用与2.5D场景相同的散热方法,模拟结果显示GPU温度为141.7ºC。如果这就是最终结果,祝你好运。
就目前这种原始设计而言,它根本无法实际应用。大多数电子元件的额定工作温度为105℃,或在受控环境下为95℃。这既是为了延长使用寿命(例如,高温下会加速产生负面影响和电迁移),也是为了避免其他因素,例如大尺寸芯片的膨胀系数会随着时间的推移导致基板变形,从而造成缺陷。现代数据中心对70℃的工作温度要求很高,而不是140℃。
即使采用强力的冷板冷却,3D堆叠的HBM本质上也像垂直堆叠的绝缘体一样,会将热量滞留在其后的硅层中。在数据方面,HBM堆叠本身的情况也只是略好一些,但内存中预计会出现较高且不均匀的温度梯度。
如何冷却“火热”的3D GPU堆栈

imec的缓解策略(如上图所示的论文中所述)指明了基准3D设计在多大程度上可以进行相对优化。imec将其称为系统技术和设计技术协同优化(STCO和DTCO)策略,简称XTCO。

总而言之,有三个主要步骤,每个步骤据称可以节省大约20ºC,此外还有几个次要步骤。
解决方案第一步:优化 HBM
从imec的路线图来看,STCO的每个步骤都至关重要。首先,它需要移除HBM基片(base die)。HBM是堆叠式内存,但其下方通常有一个逻辑芯片,专门用于处理内存的访问模式、寿命以及所有加速器内存控制器无需操心的管理工作。鉴于3D内存的特性,imec建议移除基片,并将HBM集成到加速器中。
论文并未说明该芯片是否构建在计算晶体管之上,但移除该芯片可使温度降低约4°C。值得注意的是,目前所有商用HBM芯片都带有基片,而未来的HBM4及更高版本需要定制的基片,以便更好地控制带宽和内存容量。因此,完全移除基极芯片需要定制设计,这对于大型超大规模客户或使用ASIC设计服务的客户来说或许可行,但对于普通客户而言则不太现实。
HBM技术的下一步是改进相邻3D HBM内存堆叠之间的化合物。堆叠间的模塑散热效果不佳,而且由于采用了四层堆叠结构,即使这一步骤必不可少,也显得更加多余。imec通过横向融合HBM堆叠来取代这种材料。最终得到的是一种双倍宽度的HBM堆叠,这也要求内存制造商从根本上改变其设计。

这次变革涉及方方面面,从双宽内存的商业化特性、良率到供应链,无所不包。但据imec称,它首次显著降低了散热余量,从138°C降至120.4°C。大规模实施这一变革并非易事,但如果整个行业都转向双宽HBM,也并非不可能。

接下来是顶层芯片减薄,顾名思义,这是一种减薄HBM堆叠层的方法。但在imec的分析中,它对实现可行的设计几乎没有任何帮助。将顶层芯片厚度从169微米减至41微米(可能采用CMP之类的工艺),只能使温度降低不到0.5摄氏度,即0.4摄氏度。
解决方案第二步:将ASIC的频率减半
或许最大的注意事项、实施步骤、选项,或者任何符合你观点的术语,就是将GPU频率减半。

正如imec所承认的,通过将GPU核心频率降低到原值的50%(不考虑电压调节等变量),GPU芯片的总功耗从~414W降至~300W。这一步骤将峰值温度从120.4℃降至99.2℃,使其成为最有效的措施。
但正是在这一步,我们开始看到系统层面的权衡取舍,因为频率减半自然会降低整体原始计算吞吐量;对于基准3D HBM GPU设计而言,这是相当大的性能损失。我们稍后会详细讨论这一点,以及imec为什么认为这并非什么大问题。(实际上并非如此。)
接下来,下一阶段被简单地描述为“硅片散热优化”,单从字面意思来看,这是一种非常模糊的术语使用;听起来不错,但它到底是什么意思呢?是像GPU热点和上方内存的协同设计这样高深的技术吗?实际上并非如此,恐怕它相当基础。

imec指出,设计边缘是热点的来源。通过在热点上方放置“高导热硅块”垫片和垫片(如上文(b)中提到的1.4mm硅),imec表示,这样可以形成垂直相邻的散热通道。这超越了仅依靠基准设计中位于中心的导热硅层。
解决方案第三步:改变冷却方式
我们之前已经介绍过imec用于其2.5D布局的基准散热设计,以及迄今为止的所有3D变体。该流程的最后一个真正阶段是提升散热性能。基准散热设计对于液冷来说已经非常出色,但为了进一步改进,imec建议采用更高效的双面散热方案。很简单,就是从ASIC的两侧进行散热。

经过热硅优化后,我们达到了上表中案例1的标准,温度为87.4ºC。
方案二设想采用单侧冷却,但传热效率更高(每摄氏度60瓦/平方厘米)。我推测这意味着使用喷气发动机强制液体在回路中循环。
方案3则回归“常规”芯片散热,但增加了芯片背面或“层压板侧”的散热量。从200度提升到400度可能只是换用了更大的散热片和更快的风速,但结果却收效甚微,仅比方案1略高一度。
案例4和5只是加强了层压板侧面的冷却,现在采用液冷和高效液冷。如此强大的热传递意味着温度会大幅下降(正如预期的那样)。然而,魔鬼藏在细节里——这只是模拟中的一个数值。
但总体而言,从imec将3D堆叠式HBM直接集成到GPU上的基准实现来看,这说明背面散热是必要的,无论是通过在散热片中使用更先进的基板,还是采用更激进的方法,例如液冷底板。这在3D集成设计的限制中是一个重要的信号,它不仅改变了封装形式,还改变了整个散热生态系统。
几乎所有步骤都是必需的
将所有步骤结合起来并全面实施,结果表明,没有单一的解决方案能够使GPU上的3D HBM在散热方面可行。
只有完成imec的STCO优化策略的所有步骤,我们才能达到与目前使用的2.5D设计相当的水平。
但迄今为止,最大的变化是将GPU频率减半。这里我们需要解决一些问题。
性能权衡
imec认为,将频率减半所造成的性能损失大部分会被内存吞吐量的提升所抵消。imec指出,为了应对散热挑战,必须降低GPU频率;实际上,频率要降低到大约一半,这听起来似乎有点自相矛盾。当然,奥卡姆剃刀原理告诉我们,最简单的解释通常是最佳选择,但许多人会对将GPU的整体性能降低一半到默认或基础设置的做法持怀疑态度。
该研究论文提供了以下数据,为了便于阅读,我们将其格式稍作调整。数据量可能有点大,但我们一起来看一下。纵轴代表性能,横轴代表频率,最左侧为“满负荷”频率。工作负载是GPT-175B参数训练,被描述为“多头注意力”机器学习工作负载,其内存占用高于计算占用。

橙色条形图代表2.5D解决方案的性能。这是我们的基准性能(100%),我们可以看到,随着计算频率的降低,性能也随之下降,当频率减半时,性能降至72%。
图中灰色条形代表我们之前介绍的全新3D模型。如果以全频运行,芯片速度将提升68%。但这是在142℃的温度下测得的,因此,为了使其在实际应用中可行,我们将频率降低一半。imec表示,即使如此,该芯片的性能仍然比全频运行的2.5D设计提升了22%。
黄色条形图代表的是“第二代”版本。在第一代中,3D模型假设2.5D设计和3D设计的内存带宽相同——即位宽和频率相同。第二代数据假设内存带宽比第一代提升了4倍,imec称这是“预期的”,但并未说明具体实现方式。总而言之,虽然这条产品线在全频下性能是基准的2.2倍,但在半频下性能提升了46%。(这是将全频2.5D与半频3D第二代进行比较。)
所以问题来了,为了获得22%或46%的性能提升,做这一切值得吗?
可行性与行业现实的碰撞
尽管这篇论文篇幅很短,但它确实暗示着要实现这些目标,行业内需要进行重大而全面的变革。
1、HBM
在理论上,无需基础芯片即可交付HBM的想法简洁明了,但实际上,这需要内存供应商为特定客户甚至特定产品重新设计产品堆栈的核心部分。我们将拭目以待HBM4问世以及首批厂商采用定制基础芯片时市场的灵活性,但DRAM和HBM的本质在于其批量通用化工艺。对于3D HBM-on-Logic而言,情况则更加复杂,且仅适用于那些采用协同设计集成的厂商。合并3D堆栈将带来巨大挑战,因为仅就尺寸而言,堆栈的良率就会降低。如果我们在堆栈内部嵌入硅桥来替代基础芯片,那么这将增加对封装生产线的需求,而目前全球范围内能够实现这些设计特性的工厂寥寥无几,更不用说以足够高的良率进行生产以证明其可行性了。这将是一项耗时数年的工作。
2、频率
大幅降低GPU频率,使其性能指标缩水一半,这简直是疯了。虽然从散热角度来看,这在可行性上确实很方便,但它牺牲了原始计算能力来换取散热空间,并将性能的重心放在了内存密集型AI工作负载上。那么其他工作负载呢?
问题在于,客户不愿听到新芯片的理论峰值性能只有旧芯片的一半,而且由于封装和散热的复杂性,价格也会高得多。仅仅将原始浮点运算性能减半,这并非一个成功的营销策略。诚然,在某些情况下,工作负载数量会有所提升,但这也就意味着它变成了针对特定垂直行业的内存优化型产品,而不是目前大多数Transformer AI加速器在数据中心所追求的那种通用型产品。
3、你可以自由选择吗?
imec的论文读起来就像一份食谱——需要所有部件协同运作才能最终达成目标。论文提出了三大降温方案,但其中一些方案并没有给出确切答案。例如,关于双面散热——虽然论文“研究”了顶部散热,但我们是否可以考虑芯片内部散热?或者,鉴于市场正在讨论将高带宽闪存(HBF)作为HBM的替代方案,或许HBM的散热效率更高?当我们看到这篇论文时,它带来的潜在影响之大让我们感到震惊。但是,考虑到良率、供应链和成本等诸多限制因素,在某些工作负载下提升22%的性能?这项研究固然可喜,但其结果却难以令人信服。
结论:这是一份路线图,而非产品
这项研究表明,HBM的未来远未确定。目前有一条互连技术研究路线正在探索2.5D HBM,但目标是实现双层模块而非单层模块。Celestial AI(最近被Marvell收购)和其他光互连公司正在讨论用光纤连接到内存设备来取代HBM,通过将HBM放置在不同的服务器中,而不是与内存设备紧密相邻,从而提供数倍的带宽和容量。
在不进行任何改进的情况下,3D HBM-on-logic的散热问题会成为一大难题,直接导致基础设计方案无法实现。但要通过一系列的改进、散热调整,甚至牺牲50%的GPU原始频率来使其可行,需要的远不止是简单地将HBM堆叠在GPU芯片上。
imec提供的是3D HBM芯片可行性的路线图,而非产品本身。它就像路标,指向未来性能提升不再仅仅依赖于晶体管数量和原始频率,而是行业可以更有效地转型,学习如何在三维空间内管理散热。但从理念上讲,如果没有合适的市场推广,我怀疑是否有人会公开宣称要将芯片的原始吞吐量减半。这项研究涉及复杂的Data Science建模和物理仿真,旨在解决下一代GPU面临的根本挑战,值得深入探讨。