找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1879

积分

0

好友

247

主题
发表于 9 小时前 | 查看: 3| 回复: 0

据外媒报道,芯片巨头英伟达正迎来一次关键的架构调整。在即将开幕的3月圣何塞GTC大会上,黄仁勋预计将发布一套全新的AI推理系统,其核心是一颗专为推理优化的新芯片。

引人注目的是,这款芯片的首位大客户已经敲定,正是刚刚完成巨额融资的OpenAI。而更关键的变化在于芯片的底层架构——它并非完全自研,而是基于收购获得的原Groq团队打造的LPU(语言处理单元)架构。

这意味着,英伟达第一次在核心AI算力产品线上,大规模引入外部架构设计

《华尔街日报》关于英伟达新芯片计划的报道截图

这次“不自造”的背后,是去年那笔震动行业的交易:英伟达斥资约200亿美元,完成了对Groq核心技术与团队的“acqui-hire”(收购式招聘)。如今,这枚推理芯片正是那笔投资的首次落地。这依然是典型的黄仁勋式策略:购买成熟方案,快速部署,直接上战场。

是LPU,不是GPU

据《华尔街日报》披露,英伟达正在开发一个新的推理计算系统,该系统将结合Groq设计的芯片,并在GTC大会上正式发布。

英伟达GTC 2026大会宣传图

与此同时,在OpenAI最新的融资文件中,这一计划已现端倪:

将扩大与英伟达的长期合作,包括使用3GW的dedicated inference capacity(专用推理算力),以及在Vera Rubin系统上提供2GW的训练算力。

如果计划顺利,这一“专用推理算力”极可能就是基于这颗新芯片。选择直接引入外部LPU架构,而非完全自研,与紧迫的时间窗口密切相关。近几个月来,OpenAI等头部客户已在积极寻找更高效率的推理替代方案。在推理需求迅速增长的背景下,英伟达需要更快给出针对性的解决方案。

那么,为什么这次用LPU,而非传统的GPU?核心原因在于推理场景的特殊性。GPU通常将大量模型参数存放在外部HBM(高带宽内存)中,计算核心与内存之间需要频繁进行数据搬运。在训练阶段,通过大规模并行可以摊薄这种搬运成本。

展示GPU推理中HBM数据搬运瓶颈的示意图

但在推理,尤其是生成(decode)阶段,请求批量变小、对延迟极为敏感,系统瓶颈更多来自数据移动而非算力本身。

Groq创始人讲解数据搬运成本

Groq的LPU架构改变了这一逻辑。它采用高密度片上SRAM,将数据“紧贴算力单元存放”,极大缩短了数据路径,从架构层面降低了延迟与能耗,更适配低延迟推理场景,理论速度可比GPU快10倍甚至更多。这标志着AI推理正在进入一个追求极致效率的新阶段。

LPU处理语言模型推理过程的可视化图表

随着AI Agent应用逐渐普及,整个智能算力的结构正在从“训练优先”向“推理优先”转移。推理不再只是训练后的补充环节,而成为规模更大、频率更高的长期负载。如果英伟达正式将LPU纳入核心产品线,这不仅是一款新芯片的发布,更是对算力市场重心转移的明确回应。

这也解释了为何英伟达不惜重金收购Groq,并引入其创始人Jonathan Ross(谷歌TPU之父)等核心成员。

Groq官网关于与英伟达技术授权协议的新闻截图

可以说,推理市场正在重塑算力格局,而英伟达必须拿下这个新战场。

英伟达在推理芯片市场面临挑战

过去一年,随着Agent应用爆发,市场对算力的需求结构发生了明显变化:重心从训练转向推理。训练固然重要,但推理的调用频率更高、规模更大,成本开始成为核心考量。

一些领先的AI服务商已经开始将训练与推理分开部署——训练继续使用英伟达GPU,推理则转向更具性价比的专用芯片。例如,上个月,OpenAI与Cerebras签署了价值数十亿美元的计算合作协议。Cerebras主打推理优化芯片,其首席执行官公开表示,其芯片在特定场景下快于英伟达GPU。

Anthropic则更多依赖Amazon Web Services与Google Cloud的自研芯片来支持模型运行。Meta也与AMD达成了大规模芯片订单合作,双方正在联合优化用于推理任务的GPU架构,以减少对单一供应商的依赖。

AMD与Meta在AI芯片合作的宣传标识

在国内市场,模型公司同样开始探索本土算力方案。有消息称,DeepSeek甚至直接将DeepSeek V4的早期访问权限授予华为,并已在昇腾平台完成模型迁移。根据Bernstein Research的预测,到2026年,华为在中国AI芯片市场的份额可能达到50%,而英伟达的份额或降至个位数。

与此同时,英伟达的其他竞争对手也在强化推理专用架构的布局。早已布局TPU的谷歌,以及在OpenAI融资计划中拿下计算生态合作权的亚马逊,都在推动自研芯片在高频推理场景中的落地。国内如字节、阿里、百度等大厂也开始亲自下场造芯。

趋势已经非常清晰:推理成为主战场,而客户正在积极分散供应链风险。那么,为什么传统GPU不那么适合推理呢?因为训练追求的是“大规模并行”和总吞吐量,而推理,尤其是生成阶段,追求的是“单token速度”和稳定低延迟。

具体来说,推理分为两个阶段:pre-fill(处理用户输入)和decode(逐token生成输出)。真正决定用户体验的是第二步——低延迟生成。此时的系统瓶颈往往不在计算能力,而在频繁的数据存取与搬运。GPU架构虽强,但为并行计算设计;LPU则针对性地调整了存储与计算的路径,更贴合推理负载。

正因如此,有评论认为,这是AI浪潮以来,英伟达第一次在核心硬件层面面临实质性的架构挑战。虽然英伟达仍占据全球GPU市场的绝大部分份额,Hopper、Blackwell以及即将登场的Rubin系列依旧是训练主力,但面对爆发式增长的推理需求,英伟达也必须给出正面回应。而这枚基于LPU的芯片,就是他们交出的答案。

谷歌TPU之父Jonathan Ross谈及芯片设计方向

One More Thing

除了这枚备受关注的LPU推理芯片,黄仁勋之前还曾透露,在今年GTC大会上将发布“世界前所未见”的新系列产品。外界普遍猜测可能包括:Rubin系列新一代GPU,或代号为“Feynman”的全新架构芯片。

无论最终发布什么,AI算力市场的竞争无疑正在进入一个更加多元化、专业化的新阶段。对于这场即将到来的架构之争,你有什么看法?欢迎到云栈社区开发者广场板块,与大家一起交流讨论。


参考链接:
[1]https://www.wsj.com/tech/ai/nvidia-plans-new-chip-to-speed-ai-processing-shake-up-computing-market-51c9b86e?st=SdUxv4&reflink=desktopwebshare_permalink
[2]https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer?ncid=no-ncid
[3]https://berttempleton.substack.com/p/nvidias-blackwell-ultra-and-vera




上一篇:资讯:Volcano v1.14与Kyverno 1.17发布,AI统一调度与策略引擎迎来关键更新
下一篇:GENIUS基准发布:深入评测生成式模型的流体智力与上下文推理能力
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-3 22:56 , Processed in 0.376940 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表