在CES 2026大展上,NVIDIA首席执行官黄仁勋正式发布了推理上下文内存存储平台。作为Rubin架构体系的核心支柱,该平台的发布标志着AI计算范式的一次根本性转变:AI工作负载正从传统的短上下文、单轮交互模式,全面转向长上下文、多轮对话以及多智能体协同执行的复杂场景。
在这种演进中,推理状态(即上下文)的生命周期开始跨越单个GPU会话而持久存在。存储系统在AI计算中的角色也发生了颠覆,正从单纯的“数据仓库”演变为推理性能的“加速杠杆”。
核心背景:从“一问一答”到“思考推理”的演进
驱动这一变革的核心动力源于三方面。首先是内存墙瓶颈。随着AI模型迈向万亿参数规模,生成的KV缓存呈爆炸式增长。当上下文窗口扩展到数百万个Token时,数据量已远超单个GPU HBM显存的承载极限。
其次是推理范式的进化。黄仁勋在演讲中指出:“o1的引入是AI的拐点。推理不再是一次性答案,而是一个思考过程。”这种通过测试时扩展提升答案质量的过程,导致生成的Token数量每年增加5倍。这种计算密集型过程对上下文的快速存取提出了前所未有的要求。
最后是持久化需求。AI正从工具演变为具备“长短期记忆”的智能协作伙伴,支持上下文在跨越数周的多轮交互中持续存在,这为多智能体协作和复杂的Agentic AI场景奠定了基础。
系统架构:四级分层存储体系
NVIDIA推理上下文内存存储平台实现了计算资源与上下文数据的彻底解耦,将数据中心重新设计为一个统一的记忆空间。其逻辑架构分为四个关键层级:
- 第一层(L1-GPU HBM4):活跃推理层。Rubin GPU配备高达288GB的HBM4显存,提供22TB/s的超高带宽,用于存储实时生成的活跃KV缓存。
- 第二层(L2-Vera CPU/LPDDR5X):近端溢出层。利用Scalable Coherency Fabric和1.8TB/s的NVLink-C2C技术,Vera CPU提供高达1.5TB的LPDDR5X内存,作为近端的上下文扩展。
- 第三层(L3-平台核心层):BlueField-4驱动的集群共享层。这是平台的核心,负责卸载主机CPU的元数据管理。在Vera Rubin环境下,通过800Gb/s网络,每个GPU可从逻辑上额外获得高达16TB的共享上下文空间。
- 第四层(L4-持久化Fabric层):持久化Fabric。接入由合作伙伴提供的高密度NVMe存储或QLC、HDD阵列,用于存储暂时不活跃但可能被随时唤醒的“冻结”状态上下文。
核心组件与关键技术
平台的高效运行依赖于全栈软硬件体系的深度协同:
- BlueField-4 DPU:作为平台的“中央处理器”,BlueField-4集成了64个Arm Neoverse V2核心,计算能力较前代提升6倍。其核心功能是硬件加速KV放置,直接在硬件层面处理数据存取逻辑,消除元数据处理开销,支持高达20M IOPS(4K)的存储解耦。
- Spectrum-X Ethernet网络:作为高性能网络底座,Spectrum-X利用Spectrum-6交换机提供102.4Tb/s的总带宽,支持低延迟RDMA。计算节点通过ConnectX-9 SuperNIC接入,使GPU能以亚毫秒级延迟访问共享上下文。
软件栈集成:
- NVIDIA Dynamo:负责跨节点的数据编排与一致性管理。
- NVIDIA NIXL:优化GPU与存储层之间的数据交换。
- NVIDIA AI Enterprise与NIM微服务:提供底层的DPU卸载支持,使开发者能透明地进行KV缓存的重用。
量化指标:性能、效率与安全
在处理吉兆级推理工作负载时,该平台实现了显著的性能跨越。与传统企业级存储方案相比,其优势体现在多个维度。

- 推理吞吐量(TPS)提升高达5倍。
- 能效比优化5倍,显著降低了AI工厂的运营成本。
- 安全方面,平台引入了机密计算架构。黄仁勋强调:“一切在传输中、在休息中和计算中都经过加密。这允许公司感到安全,他们的模型被部署,但永远不会被别人看到。”通过ASTRA零信任模型和800Gb/s线速AES-XTS加密,确保了多租户环境下上下文数据的绝对隐私。
生态系统与未来路径
NVIDIA已通过完整的DOCA框架和BlueField平台吸引了存储行业的广泛参与。首批构建基于BlueField-4的下一代AI存储平台的创新者包括:AIC、Cloudian、DDN、Dell Technologies、HPE、Hitachi Vantara、IBM、Nutanix、Pure Storage、Supermicro、VAST Data以及WEKA。
根据最新存储供应商反馈,生态系统正围绕“上下文即基础设施”展开重构:
- DDN宣布其AI数据智能平台已深度支持Rubin与BlueField-4,通过CME技术实现分布式KV缓存分层,确保在万亿参数模型并发推理时提供可预测的性能。同时,DDN强调通过BlueField-4加速引擎,其审计与合规准备时间可缩短70%。
- Nutanix将其AI操作系统环境与Rubin平台整合,旨在通过支持Vera Arm CPU和BlueField-4为企业提供主权AI基础。Nutanix强调通过集成Spectrum-X以消除数据中心复杂性,帮助客户快速将私有数据转化为竞争优势。
- WEKA提出了“上下文时代已经到来”的观点。其Augmented Memory Grid技术与NVIDIA平台高度协同,旨在解决智能体循环推理中的KV缓存瓶颈,使推理系统能以毫秒级响应处理海量历史状态。
按照路线图,BlueField-4将于2026年下半年正式量产。该平台的广泛部署将使推理上下文从GPU的易失性物理显存扩展为数据中心级别的持久化资源,达成内存即服务的最终形态。
关键数据与技术规格统计
表:Rubin推理架构四级分层存储规格

表:BlueField-4 AI原生存储合作伙伴关键技术分工

总结而言,NVIDIA推理上下文内存存储平台通过将存储层定义为“扩展显存”,彻底解决了万亿参数模型在长上下文场景下的物理壁垒。它不仅是硬件的堆叠,更是对AI工厂逻辑架构的一次重构,为Agentic AI时代的到来奠定了坚实的工业化基础。想了解更多前沿技术解读与架构分析,欢迎访问 云栈社区 进行深入探讨。
|