3684 积分	0 好友	489 主题

发消息

英伟达推出CMX架构，用BlueField-4 STX解决AI Agent存储瓶颈

发表于 2026-3-20 15:20:02 | 查看: 177| 回复: 0

如果你的 AI Agent 干活干到一半突然“失忆”，别急着责怪模型本身不行，这背后的“黑手”大概率是存储系统没跟上节奏。

在 GTC 2026 大会上，英伟达抛出了一项重磅发布：BlueField-4 STX。这并非一块简单的图形显卡，而是一套旨在重构 AI 基础设施的参考架构。根据官方数据，这套方案能将 AI Agent 的 Token 吞吐量提升 5 倍，能效提升 4 倍，同时让数据摄取速度翻番。

这些数字足够惊人。但更值得关注的是，英伟达这次精准地将手术刀对准了那个长期被忽视的角落——存储层。

被忽视的“记忆瓶颈”：KV Cache 之困

你是否注意到，如今的 AI 模型能力越来越强，但在执行复杂任务时却显得越来越“健忘”？

当 AI Agent 执行一个包含多步骤、需要调用多种工具的任务时，它必须依赖一种名为 KV Cache（键值缓存） 的机制来维持其“工作记忆”。这就像是它的临时草稿纸，记录着之前每一步的计算中间结果，从而避免每次计算都从头开始。

问题恰恰出在这里。

随着模型上下文窗口的不断扩大，以及 Agent 任务步骤的日益复杂，这张“草稿纸”也变得异常庞大。当这些 KV Cache 数据需要频繁往返于 GPU 和传统存储（如 NAS 或对象存储）之间时，GPU 的大部分时间只能用于等待数据，其强大的计算利用率因此直线下降。

英伟达 Hyperscale 与 HPC 副总裁 Ian Buck 的表述非常直接：传统数据中心存储虽然容量巨大，但其响应速度过慢，根本无力支撑那些需要跨越多步、多会话进行交互的新型 AI Agent。

简而言之，这就好比让一辆法拉利去跑泥泞的土路，引擎再强悍也无用武之地。

在 GPU 与磁盘间“加塞”：BlueField-4 STX 的核心思路

既然道路不通，那就重新修路。

BlueField-4 STX 的核心设计理念非常直接：在 GPU 与传统慢速磁盘之间，强行插入一个专用的“上下文内存层”。

这并非简单地增加一块高速 SSD。该架构基于全新的 BlueField-4 处理器（集成了 Vera CPU 与 ConnectX-9 SuperNIC），并配合 Spectrum-X 以太网技术，专门为高效搬运 KV Cache 这类数据而优化。英伟达将这一整套平台称为 CMX（上下文内存加速器）。

可以将其理解为给那位“健忘”的 AI Agent 配备了一位高效的随身秘书。这位秘书会把最常用、最关键的“草稿纸”时刻备在手边，Agent 无需每次都跑去遥远的“档案室”（即传统存储）翻找，从而极大减少了等待时间。

一个有趣的策略是，英伟达并未计划直接销售成品“盒子”。STX 本质上是一个参考架构，英伟达将其开放给了存储生态中的合作伙伴。同时，还配套提供了一个名为 DOCA Memo 的软件参考平台。这相当于既提供了菜谱，又提供了核心厨具，旨在推动整个生态朝统一方向演进。

存储巨头的“集体站队”：一场标准定义之战

看看此次合作的厂商名单，就能明白这件事的深层意义。

戴尔、慧与、NetApp、IBM、VAST Data…… 几乎所有主流的存储巨头都位列其中。甚至像 Cloudian、MinIO 这类对象存储领域的新贵也参与进来。

另一方面，CoreWeave、Oracle Cloud、Mistral AI 等云服务商和模型厂商也明确承诺将采用 STX 架构。

这一系列动作释放出一个明确信号：英伟达并非在打造单一产品，而是在尝试定义下一代 AI 基础设施，特别是存储部分的标准。

它希望将 STX 塑造成未来 Agentic AI 存储架构的“标准答案”。长远来看，任何想要构建高效 AI Agent 基础设施的厂商，都可能需要参考或遵循这一路径。产品预计在 2026 年下半年上市，留给传统、通用的存储架构进行适配和转型的时间，确实不多了。

实战验证：雀巢的“意外”收益

理论需要实践检验。作为合作伙伴的 IBM，在此次发布中就带来了一个颇具说服力的实战案例。

虽然这个案例并非直接针对 Agent 推理，但 IBM 与英伟达合作的 GPU 加速数据分析方案，在雀巢的实际生产环境中取得了显著效果：

在处理一个覆盖 186 个国家、涉及 44 张数据表的“订单到现金”数据集市时，数据刷新周期从原来的 15 分钟大幅缩短至仅需 3 分钟。

同时，实现了 83% 的成本节省，性价比提升了 30 倍。

这个案例虽然聚焦于数据分析，但其底层逻辑是相通的：数据访问与处理的速度，正成为制约企业数据层 AI 应用性能的关键瓶颈。只要能显著提升数据在存储与计算单元之间的搬运效率，无论是在推理环节还是分析场景，效果都将立竿见影。

结语：存储从“配角”走向“核心”

过去，企业在规划 AI 基础设施时，目光几乎全部聚焦于 GPU 的算力，存储往往被视为可以“凑合”的配角。

如今，情况已然不同。

BlueField-4 STX 的发布是一个强烈的行业信号：存储层正在从后台走向前台，成为 AI 基础设施的一级决策事项。那些为通用场景设计的 NAS 和对象存储，其架构初衷并未考虑毫秒级、高并发的 KV Cache 访问需求。英伟达此举正是在明确宣告：旧有的存储“瓶子”，已经装不下 AI Agent 这瓶“新酒”。

当然，我们也需保持技术上的清醒。英伟达所宣称的 5 倍吞吐与 4 倍能效，其对比基线是传统的 CPU 驱动存储方案，具体的测试配置细节仍有待公开。这些数字的实际含金量，还需等待产品上市后由更多第三方测试来验证。

然而，望着那一长串顶级厂商的加盟名单，恐怕没有哪家主流玩家愿意在这场关乎未来 AI 基础设施的赛道上掉队。以前我们谈论“内存即服务”，未来是否会出现“上下文即服务”的新范式？这值得所有技术人思考。

对于这场技术变革的更多深度解读和技术实践，欢迎在云栈社区与广大开发者一同交流探讨。

参考链接：
https://venturebeat.com/data/nvidia-bluefield-4-stx-adds-a-context-memory-layer-to-storage-to-close-the

上一篇：年终奖被“画饼”？聊聊技术人如何构建稳定的职场内核
下一篇：大模型调优与提示工程实战解析：从温度参数到防注入攻击

NVIDIA, BlueField-4, 人工智能代理, 存储架构, GPU加速