2009 积分	0 好友	267 主题

发消息

英伟达Vera Rubin如何用HBM4、LPDDR5X和DPU重构AI存储架构

发表于 2026-1-18 06:27:28 | 查看: 80| 回复: 1

NVIDIA Vera Rubin 芯片特写

想象一下，在CES 2026的舞台上，黄仁勋正式宣布其新一代AI超级计算平台Vera Rubin已进入全面投产阶段。这并非遥不可及的未来，而是基于现有技术路线的合理推演。

根据构想，Rubin GPU将搭载第三代Transformer引擎，其NVFP4推理/训练算力将达到惊人的50/35 PFLOPS，是前代Blackwell平台的5倍和3.5倍。更引人注目的是其存储架构的革新：HBM4带宽高达22TB/s，晶体管数量跃升至3360亿个，这些都直指一个核心问题——如何突破AI计算中的“内存墙”瓶颈。

Vera Rubin 全面投产，重构存储架构改善“内存墙”困境

Vera Rubin平台的核心变革在于重构了HBM、DRAM、NAND组成的三层存储金字塔。在智能体（Agentic AI）时代，AI需要记住漫长的对话历史和复杂的上下文，这会产生巨大的KV Cache（键值缓存）。传统的解决方案是将这些数据全部塞进昂贵的HBM显存中，但HBM容量有限且成本高昂。

为此，英伟达设计了全新的存储架构，推出了由BlueField-4驱动的第三层推理上下文内存存储平台。这一设计旨在让系统每秒处理的token数量提升高达5倍，从根本上优化数据在各级存储间的流动效率。这场围绕计算与存储的协同设计，正在重新定义高性能AI基础设施的形态。

HBM4：与GPU深度绑定的“计算核心”

Rubin GPU集成了新一代高带宽内存HBM4。与HBM3e相比，HBM4的接口宽度增加了一倍。通过全新的内存控制器、与内存生态系统的深度协同设计以及更紧密的计算-内存集成，Rubin GPU的内存带宽几乎达到了Blackwell的三倍。

具体而言，每颗Rubin GPU的HBM4容量为288GB，带宽为22TB/s。它已不再仅仅是GPU附近的“高速缓存”，其性能直接成为了整个系统吞吐能力的硬性约束。从市场角度看，HBM4的单价较HBM3e有显著提升，有望明显带动内存原厂的毛利率。

LPDDR5X：负责存放“温热”的KV缓存数据

在Vera Rubin平台中，CPU部分（Vera CPU）升级采用了LPDDR5X内存。Vera将可扩展一致性结构（SCF）与高达1.5TB的LPDDR5X内存子系统相结合，能在低功耗下提供高达1.2TB/s的带宽。相比之下，上一代Grace平台的配置为480GB LPDDR5X和512GB/s带宽。

在实际应用中，系统可将LPDDR5X和HBM4视为一个统一的一致性内存池，这极大地减少了不必要的数据移动开销，并高效支持了KV缓存卸载和多模型并行执行等关键技术。这一设计体现了现代计算机体系结构中对内存层级优化的深刻思考。

NAND与DPU：BlueField-4驱动的推理上下文存储平台

Vera Rubin在机架内部署了BlueField-4处理器，专门用于管理海量的KV Cache。BlueField-4集成了64核的Grace CPU和高带宽LPDDR5X内存，并配备了ConnectX-9网络接口，可提供高达800 Gb/s的超低延迟以太网或InfiniBand连接。

网络存储常用芯片类型对比表

容量是这一层的最大亮点。在每个GPU原有1TB HBM内存的基础上，BlueField-4 DPU内存存储平台额外为每个GPU增加了16TB的存储容量。对于一个NVL72规格的机架而言，这意味着总共增加了1152TB的可用内存。这类专为加速和卸载存储任务而设计的DPU，正成为智算中心不可或缺的一部分。

综上所述，英伟达Vera Rubin平台通过精细化的存储层级设计，用HBM4担当极致性能核心，用大容量LPDDR5X承载温热数据，再用DPU管理的扩展存储解决海量上下文需求，系统地回应了AI对高带宽、大容量、低延迟的复合诉求。这不仅是单一产品的升级，更代表了AI算力基础设施向存储感知型架构演进的重要趋势。对这类前沿技术动态的持续追踪与解读，正是像云栈社区这样的开发者社区所关注的核心。

上一篇：HikariCP与Druid数据库连接池性能监控实战：SpringBoot项目配置指南
下一篇：Linux登录后自动展示系统状态：用Bash脚本实时监控CPU、内存与磁盘使用情况

NVIDIA, VeraRubin, HBM, LPDDR5X, AI芯片