找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2229

积分

0

好友

317

主题
发表于 19 小时前 | 查看: 1| 回复: 0

在当今顶尖的AI加速器产品中,我们总能看到一个熟悉的布局:GPU芯片被高带宽内存(HBM)所环绕。这种内存尽可能靠近其服务的计算核心,旨在解决AI计算中最大的瓶颈——将海量数据从内存传输到逻辑电路所产生的巨大能耗和延迟。那么,如果打破现有格局,将HBM直接堆叠在GPU顶部,进一步拉近两者距离,会发生什么呢?

近期,全球领先的半导体研发机构imec利用先进的热模拟技术深入探究了这种可能性。他们在2025年12月举行的IEEE国际电子器件会议(IEDM)上公布了研究成果,结果起初令人沮丧:简单的3D堆叠会使GPU的工作温度翻倍,远超其正常工作范围。然而,由imec的James Myers带领的团队并未止步于此,他们通过一系列工程优化方案,最终成功地将温差降低到了几乎可忽略的水平,为未来的高性能计算架构指明了一条可能的技术路径。

一种革命性的散热方案

imec的研究从一个基准模型开始:他们模拟了一个功耗为414瓦的GPU和四个HBM芯片,采用目前主流的2.5D封装形式。在这种配置下,GPU和HBM都位于一个称为中介层的基板上,通过其表面的数千个微米级铜互连线紧密连接。模拟结果显示,在这种传统封装下,GPU的峰值温度略低于70°C,内存芯片温度则更低,这符合高性能处理器的典型工况。热量通过封装顶部的液冷系统散去,这种冷却方式在新型AI数据中心中已十分普遍。

“虽然当前仍在采用2.5D方案,但其未来的扩展性并不理想,” imec高级研究员陈宇凯在IEDM大会上解释道,“它遮挡了GPU的两侧,限制了封装内部GPU之间的互连空间。相比之下,3D方案能带来更高的带宽、更低的延迟,并且最关键的是,它能显著减小封装尺寸。”

然而,最直接的堆叠方式——简单地将HBM芯片置于GPU顶部——却带来了灾难性的热问题。模拟显示,GPU的温度会飙升至惊人的140°C,远超大多数GPU约80°C的安全工作上限。

imec团队随即着手尝试一系列旨在降低温度的技术与系统协同优化(XTCO)方案。他们的第一步是尝试移除一层多余的硅片。要理解这一点,需要先了解HBM的结构。

2.5D与3D HBM集成方式对比示意图

标准的HBM由多达12个高密度DRAM芯片垂直堆叠而成,这堆芯片下方还有一块额外的逻辑芯片,称为基片。基片负责数据多路复用和信号中继,以穿过毫米级的间隙连接到旁边的GPU。但在HBM-on-GPU的3D堆叠中,内存与处理器“面对面”,数据可以直接传输,理论上不再需要这个“中间人”。移除基片不仅能使温度降低约4°C,更能大幅提升内存到处理器的潜在带宽。

第二个关键优化是降低GPU的运行频率。这看似与提升AI算力的目标背道而驰,但在特定场景下却能产生奇效。大型语言模型等AI工作负载往往是“内存密集型”的,即性能主要受限于内存带宽,而非计算单元的速度。imec团队估计,3D堆叠HBM技术本身就能将内存带宽提升数倍。因此,即使将GPU时钟频率降低50%,凭借带宽的巨大优势,整体性能仍有可能提升,同时还能将峰值温度降低超过20°C。

温度的进一步降低则依赖于提高HBM堆栈及其周围区域的导热性。这包括将四个独立的HBM堆栈合并为两个更宽的堆栈,以减少散热盲区;减薄堆栈顶部较厚的芯片;以及用高导热硅材料填充HBM周围更多的空隙以增强热传导。

经过上述一系列措施,堆叠芯片的运行温度可降至约88°C。而最终的“杀手锏”优化——双面冷却,将温度进一步拉低至接近70°C。通常,芯片约95%的热量从封装顶部散发。但如果在封装底部也施加类似的主动冷却,热量可以从GPU的两侧被带走,最终再降低17°C。

Myers表示,这项研究证明了GPU上集成HBM在热学上是可行的,但这未必是唯一或最佳的选择。“我们正在模拟其他系统配置,以帮助我们确定这是否是最优方案。将HBM置于GPU之上引起了一些业界人士的兴趣,因为它可能让GPU更靠近散热器。但这可能会使设计更复杂,因为GPU的电力与数据信号需要垂直穿过HBM堆栈。”

关键技术挑战与协同优化路径

所有前沿技术探讨都指向一个事实:人工智能工作负载的需求正在不断超越现有硬件的能力极限。具体来说,AI加速器在功耗密度、内存带宽和系统复杂性等多个维度同时触及了物理天花板。尽管2.5D封装仍是主流,但其局限性促使业界探索更激进的3D集成方案。

在迈向真正的“Logic-on-HBM”或“HBM-on-Logic”时代之际,imec在IEDM 2025上发表的论文《突破GPU上3D HBM集成中的热瓶颈》提出了一个大胆的论断,并规划了一条详尽的散热解决路线。imec通过复杂的多物理场仿真模型,建立了一个基准:一个功耗约400W的GPU芯片,搭配四个12层的HBM堆栈,采用高性能液冷散热。

2.5D HBM封装结构剖面图

基准的2.5D配置模拟结果显示,GPU峰值温度为69.1°C,HBM芯片最坏情况下温度约60°C,这代表了当前高端AI系统中良好的散热状态。

2.5D封装下GPU温度分布热图

为什么2.5D HBM封装难以继续扩展?
观察硬件物理布局很容易发现当前设计的局限:HBM堆栈占据了GPU四周宝贵的I/O“海岸线”,阻碍了GPU之间直接互连等重要连接,也限制了单个封装内可集成的计算芯粒数量。

相比之下,如论文示意图所示的3D堆叠方案,将HBM直接置于GPU上方,可以释放芯片边缘空间,实现更紧密的多芯片互连,并将内存到计算单元的距离缩短至几乎为零。

3D HBM-on-GPU封装结构示意图

但这种设计带来最严峻的挑战便是散热性能的急剧恶化。将四个总功耗可观的HBM堆叠(以HBM3e为例,满载功耗可达150W以上)置于一个约400W的GPU之上,就如同在热源上方放置了多层“隔热毯”。

初始3D堆叠方案下的GPU高温热图

模拟显示,采用与2.5D相同的散热方案,GPU温度高达141.7°C,这完全不具备实用性。现代数据中心要求的工作温度通常在70°C左右,过高的温度会加速芯片老化、引发电迁移等问题。

如何冷却“火热”的3D GPU堆栈?

imec提出了一套系统性的缓解策略,称为系统技术协同优化(STCO)。如下图所示,从原始的3D高热开始,通过一系列步骤,最终将温度降至与2.5D相当的水平。

imec STCO降温步骤效果示意图

imec STCO步骤及对应峰值温度表格

解决方案第一步:HBM堆栈优化

  1. 移除HBM基片:在3D集成中,HBM底部的逻辑基片功能可以整合到GPU的内存控制器中,移除后可降温约4°C。但这需要定制化的HBM设计。
  2. 合并HBM堆栈:将四个独立的HBM堆栈横向合并为两个双倍宽度的堆栈,减少了堆栈间隔热材料的总量。这一变革能将温度从138°C显著降至120.4°C,但涉及内存设计和供应链的重大调整。

合并HBM堆栈后的封装结构图

HBM合并后GPU温度分布热图

  1. 减薄顶层芯片:将HBM堆栈最顶层芯片的厚度大幅减薄,但对整体降温贡献微乎其微,仅约0.4°C。

解决方案第二步:调整GPU运行频率
这是所有步骤中降温效果最显著的一环。将GPU核心频率降低至原始值的50%,其总功耗从414W降至300W,从而使峰值温度从120.4°C大幅降至99.2°C。当然,这意味着原始计算吞吐量减半,但imec认为其损失可通过内存带宽的巨幅提升来弥补。

GPU频率与功耗、温度关系图表

解决方案第三步:热界面材料优化与双面冷却
在热点区域上方放置高导热硅块作为散热通道,可进一步提升散热效率。

热硅优化结构示意图及温度图

最终的“王牌”是采用双面冷却技术。基准冷却仅从封装顶部散热。imec模拟了增强顶部冷却或增加底部(层压板侧)冷却的方案。结果表明,要实现与2.5D相当的温度(约70.8°C),必须实施高效的底部冷却,例如使用液冷冷板。

不同冷却组合下的优化效果对比图

性能权衡与行业现实

imec的研究强调,必须综合实施所有优化步骤,才能使3D HBM-on-GPU在热学上可行。其中,将GPU频率减半是影响最大的措施。为了评估整体价值,研究对比了不同配置下的性能。

2.5D、3D及3D Gen2在不同频率下的性能对比图

上图中,橙色条代表2.5D方案,在全频下性能设为100%,频率减半时性能降至72%。灰色条代表第一代3D模型,在全频下性能比2.5D提升68%(但在不切实际的141.7°C下)。为了使其可行,将频率减半,此时性能仍比全频2.5D设计高出22%。黄色条代表第二代3D模型,它假设内存带宽有进一步提升(如4倍),即使频率减半,其性能也比全频2.5D高出46%。

然而,这一路线图与行业现状碰撞时,面临诸多挑战:

  1. HBM供应链:移除基片、合并堆栈都需要内存制造商进行深度定制,这与当前DRAM/HBM批量化、通用化的生产模式相悖,将影响良率和成本。
  2. 市场接受度:将旗舰GPU的标称峰值性能减半,是极其困难的营销主张。这会使产品更像是针对特定内存密集型工作负载的垂直优化产品,而非追求通用性的数据中心加速器。
  3. 系统复杂性:双面冷却等方案要求改变整个服务器机柜的散热基础设施,增加了系统复杂性和成本。

结论:这是一份路线图,而非即用产品

这项研究清晰地表明,HBM的未来演进路径尚未定型。除了探索2.5D多层堆叠,业界也在研究如硅光互连等替代方案,试图将内存与计算解耦。在不进行任何优化的情况下,3D HBM-on-Logic的热障使其无法实现。而要使其可行,需要的远不止是简单的堆叠,而是一系列从芯片设计、封装工艺到散热系统的协同革新。

imec提供的是一份证明技术可行性的路线图,而非一个即刻可用的产品方案。它像是一个路标,指引着未来性能提升的方向——从单纯追求晶体管数量和时钟频率,转向在三维空间内更精巧地协同设计和管理整个系统的功耗与散热。这条道路充满挑战,但对于持续突破AI与高性能计算的算力瓶颈至关重要。能否成功,不仅取决于技术突破,更取决于整个生态系统的协同演进与成本控制。

参考链接
https://spectrum.ieee.org/hbm-on-gpu-imec-iedm




上一篇:如何为CIC滤波器设计补偿FIR以校正通带滚降
下一篇:C++内存序实战:何时必须选择seq_cst确保全局一致性
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-16 21:31 , Processed in 0.233181 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表