找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2050

积分

0

好友

271

主题
发表于 前天 01:06 | 查看: 8| 回复: 0

在CES 2026大展上,NVIDIA首席执行官黄仁勋正式发布了推理上下文内存存储平台。作为Rubin架构体系的核心支柱,该平台的发布标志着AI计算范式的一次根本性转变:AI工作负载正从传统的短上下文、单轮交互模式,全面转向长上下文、多轮对话以及多智能体协同执行的复杂场景。

在这种演进中,推理状态(即上下文)的生命周期开始跨越单个GPU会话而持久存在。存储系统在AI计算中的角色也发生了颠覆,正从单纯的“数据仓库”演变为推理性能的“加速杠杆”。

核心背景:从“一问一答”到“思考推理”的演进

驱动这一变革的核心动力源于三方面。首先是内存墙瓶颈。随着AI模型迈向万亿参数规模,生成的KV缓存呈爆炸式增长。当上下文窗口扩展到数百万个Token时,数据量已远超单个GPU HBM显存的承载极限。

其次是推理范式的进化。黄仁勋在演讲中指出:“o1的引入是AI的拐点。推理不再是一次性答案,而是一个思考过程。”这种通过测试时扩展提升答案质量的过程,导致生成的Token数量每年增加5倍。这种计算密集型过程对上下文的快速存取提出了前所未有的要求。

最后是持久化需求。AI正从工具演变为具备“长短期记忆”的智能协作伙伴,支持上下文在跨越数周的多轮交互中持续存在,这为多智能体协作和复杂的Agentic AI场景奠定了基础。

系统架构:四级分层存储体系

NVIDIA推理上下文内存存储平台实现了计算资源与上下文数据的彻底解耦,将数据中心重新设计为一个统一的记忆空间。其逻辑架构分为四个关键层级:

  • 第一层(L1-GPU HBM4):活跃推理层。Rubin GPU配备高达288GB的HBM4显存,提供22TB/s的超高带宽,用于存储实时生成的活跃KV缓存。
  • 第二层(L2-Vera CPU/LPDDR5X):近端溢出层。利用Scalable Coherency Fabric和1.8TB/s的NVLink-C2C技术,Vera CPU提供高达1.5TB的LPDDR5X内存,作为近端的上下文扩展。
  • 第三层(L3-平台核心层):BlueField-4驱动的集群共享层。这是平台的核心,负责卸载主机CPU的元数据管理。在Vera Rubin环境下,通过800Gb/s网络,每个GPU可从逻辑上额外获得高达16TB的共享上下文空间。
  • 第四层(L4-持久化Fabric层):持久化Fabric。接入由合作伙伴提供的高密度NVMe存储或QLC、HDD阵列,用于存储暂时不活跃但可能被随时唤醒的“冻结”状态上下文。

核心组件与关键技术

平台的高效运行依赖于全栈软硬件体系的深度协同:

  • BlueField-4 DPU:作为平台的“中央处理器”,BlueField-4集成了64个Arm Neoverse V2核心,计算能力较前代提升6倍。其核心功能是硬件加速KV放置,直接在硬件层面处理数据存取逻辑,消除元数据处理开销,支持高达20M IOPS(4K)的存储解耦。
  • Spectrum-X Ethernet网络:作为高性能网络底座,Spectrum-X利用Spectrum-6交换机提供102.4Tb/s的总带宽,支持低延迟RDMA。计算节点通过ConnectX-9 SuperNIC接入,使GPU能以亚毫秒级延迟访问共享上下文。

软件栈集成

  • NVIDIA Dynamo:负责跨节点的数据编排与一致性管理。
  • NVIDIA NIXL:优化GPU与存储层之间的数据交换。
  • NVIDIA AI Enterprise与NIM微服务:提供底层的DPU卸载支持,使开发者能透明地进行KV缓存的重用。

量化指标:性能、效率与安全

在处理吉兆级推理工作负载时,该平台实现了显著的性能跨越。与传统企业级存储方案相比,其优势体现在多个维度。

AI原生存储平台与传统存储性能对比表

  • 推理吞吐量(TPS)提升高达5倍
  • 能效比优化5倍,显著降低了AI工厂的运营成本。
  • 安全方面,平台引入了机密计算架构。黄仁勋强调:“一切在传输中、在休息中和计算中都经过加密。这允许公司感到安全,他们的模型被部署,但永远不会被别人看到。”通过ASTRA零信任模型和800Gb/s线速AES-XTS加密,确保了多租户环境下上下文数据的绝对隐私。

生态系统与未来路径

NVIDIA已通过完整的DOCA框架和BlueField平台吸引了存储行业的广泛参与。首批构建基于BlueField-4的下一代AI存储平台的创新者包括:AIC、Cloudian、DDN、Dell Technologies、HPE、Hitachi Vantara、IBM、Nutanix、Pure Storage、Supermicro、VAST Data以及WEKA。

根据最新存储供应商反馈,生态系统正围绕“上下文即基础设施”展开重构:

  • DDN宣布其AI数据智能平台已深度支持Rubin与BlueField-4,通过CME技术实现分布式KV缓存分层,确保在万亿参数模型并发推理时提供可预测的性能。同时,DDN强调通过BlueField-4加速引擎,其审计与合规准备时间可缩短70%。
  • Nutanix将其AI操作系统环境与Rubin平台整合,旨在通过支持Vera Arm CPU和BlueField-4为企业提供主权AI基础。Nutanix强调通过集成Spectrum-X以消除数据中心复杂性,帮助客户快速将私有数据转化为竞争优势。
  • WEKA提出了“上下文时代已经到来”的观点。其Augmented Memory Grid技术与NVIDIA平台高度协同,旨在解决智能体循环推理中的KV缓存瓶颈,使推理系统能以毫秒级响应处理海量历史状态。

按照路线图,BlueField-4将于2026年下半年正式量产。该平台的广泛部署将使推理上下文从GPU的易失性物理显存扩展为数据中心级别的持久化资源,达成内存即服务的最终形态。

关键数据与技术规格统计

表:Rubin推理架构四级分层存储规格

Rubin推理架构四级分层存储规格表

表:BlueField-4 AI原生存储合作伙伴关键技术分工

BlueField-4 AI原生存储合作伙伴分工表

总结而言,NVIDIA推理上下文内存存储平台通过将存储层定义为“扩展显存”,彻底解决了万亿参数模型在长上下文场景下的物理壁垒。它不仅是硬件的堆叠,更是对AI工厂逻辑架构的一次重构,为Agentic AI时代的到来奠定了坚实的工业化基础。想了解更多前沿技术解读与架构分析,欢迎访问 云栈社区 进行深入探讨。




上一篇:Spring配置类辨析:@Configuration与@Component混用的三大隐患
下一篇:Spring Boot 3 与 Redis 实现生产级通用幂等防重中间件详解
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-14 17:29 , Processed in 0.447119 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表