找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4205

积分

0

好友

553

主题
发表于 2 小时前 | 查看: 3| 回复: 0

过去几年,数据中心GPU的发展主线始终围绕超大规模模型训练展开。而NVIDIA Blackwell Ultra架构的问世,彻底扭转了这一重心。Blackwell Ultra专为推理与推理阶段的算力负载深度优化——在推理环节,模型处理的 token 总量远超训练阶段,延迟、功耗与内存表现的重要性,已可比肩芯片的峰值浮点算力。

NVIDIA Blackwell Ultra B300 GB300 架构图示

在这一行业变革背景下,两款硬件产品重新定义了AI基础设施的基础算力单元与整机部署单元:B300单GPU模组、搭载NVL72互联架构的GB300整机柜系统。二者相辅相成,让Blackwell Ultra不再只是一代常规迭代产品,而是一套面向企业级、自主可控大规模算力集群的完整建设与运营设计蓝图。

一、Ultra架构核心升级

Blackwell Ultra延续了Blackwell系列的技术路线,但硬件设计全面向AI推理、复杂逻辑推演、超大内存与高速互联场景倾斜。

芯片层面,Blackwell Ultra综合性能较标准版Blackwell提升约1.5倍;硬件原生支持NVFP4精度格式,在保证运算精度的同时,将有效算力密度直接翻倍,并降低了内存占用。

Blackwell Ultra 密集低精度计算性能对比

相比标准版Blackwell,另一项核心升级是注意力层加速单元的性能实现翻倍。当前,处理超长上下文、高推理负载的模型时,注意力计算几乎占据推理成本的大头。注意力机制依赖通用矩阵乘法(GEMM)与Softmax指数运算完成计算。虽然历代GPU的矩阵运算能力持续攀升,但负责指数等超越函数运算的专用功能单元(SFU)性能提升相对滞后,导致算力匹配失衡。对此,PyTorch官方博客有详细深度解读。

后面我们再翻翻这个资料
https://pytorch.org/blog/flashattention-3/

Blackwell Ultra 对专用功能单元(SFU)进行了大幅增强,能够更高效地执行注意力相关运算,从而让 Transformer 类模型的推理速度更快、算力开销更低。

Blackwell Ultra SFU 性能对比

同时,Blackwell Ultra在高带宽内存(HBM)方面迎来重大升级:单颗GPU搭载12层堆叠的HBM3e显存,容量达到288GB,而前代产品仅采用8层堆叠方案。此次升级大幅拉高了硬件内存上限,对大语言模型(LLM)、检索增强生成系统(RAG)、稀疏专家模型(MoE)具有极高价值——这类模型需要充足的内存来存放模型权重、键值缓存与激活值。

GPU 显存容量对比:H100 到 Blackwell Ultra

上述所有硬件优化,都体现出产品设计思路的战略转变:不再仅侧重模型训练,而是持续优化常态化推理场景的综合使用成本。

二、B300与GB300 NVL72

B300是Blackwell Ultra架构的基础算力单元,是一款面向推理场景、拥有超大内存的处理器,专门适配大语言模型、智能体系统以及超长上下文推理任务。芯片采用双光罩架构设计,NVFP4张量核心的吞吐能力大幅提升,单卡标配288GB HBM3e高带宽显存。

B300做了定向取舍:弱化传统FP64高精度算力,全力提升低精度运算效率、注意力计算速度,同时拉满显存带宽,让超大完整模型或大量混合专家子模型能够全部驻留在显存中。实际落地时,B300常以8卡整机节点(DGX/HGX B300)形态部署,也是调度平台与业务团队规划资源时的基础算力单元。

与之相对,GB300 NVL72是一套整机柜一体化AI算力集群。整机集成72颗B300规格GPU、36颗Grace架构CPU,搭配新一代NVLink高速互联,构成统一完整的加速域。整机聚合数十TB HBM显存,辅以超大 NVLink 互联带宽,其运行逻辑不再是多节点集群,而是面向工业级大规模推理打造的一体化巨型加速单元。

如果说B300聚焦芯片底层能力优化——显存、算力吞吐、注意力运算;那么GB300则侧重整机系统层面的优化,涵盖供电、散热、互联链路与机柜级内存一致性。该整机柜方案可作为基础部署单元,搭建自主可控算力专区、多机柜推理集群以及新一代企业级 AI 云平台。

下文对B300显卡与GB300 NVL72整机柜系统进行参数对比。

B300 与 GB300 NVL72 参数对比表

三、产品设计方向与核心影响

1. 优先低精度算力,适度弱化FP64通用高精度能力

Blackwell Ultra架构以及搭载该架构的B300芯片,深度面向NVFP4、FP8这类低精度张量格式与注意力类负载做硬件专项优化。这也意味着传统高性能计算、物理仿真、科研数值模拟等重度依赖FP64高精度运算的业务,很难再获得同等幅度的性能提升。

这种硬件取舍传递出清晰的产品战略:英伟达不再追求一款加速器适配全部场景,而是集中资源深耕 Transformer、大语言模型、推理、逻辑推演等AI类业务。

2. 显存密度跃升,功耗与散热成为核心约束

单卡288GB大容量HBM3e显存、单机柜集成数十张GPU,内存容量瓶颈已被突破,取而代之的是整机功耗与机柜热密度两大核心制约因素。GB300 NVL72整机柜普遍配套液冷系统,同时需要专属的大功率供电配套,这足以体现整机超高功率密度与重载运行特性。

这种变化将彻底重构数据中心的规划逻辑,机房的留白布局、制冷管路、供电回路、冗余备份,甚至建筑抗震与振动控制,都需纳入前期设计考量。

3. Blackwell Ultra搭建成熟的下一代算力体系

Blackwell Ultra的推出不只是一代常规硬件迭代,更是AI基础设施运行模式的全面革新。行业不再单纯追逐浮点算力的小幅提升,而是重新定义GPU的核心定位:面向超大显存负载、低精度张量运算、大规模推理部署,以及机柜级统一内存一致性架构。

参考资料:
Ref: https://radiant.co/

免责声明:作者尊重知识产权、数据隐私,部分图片和内容来源于公开网络,版权归原撰写发布机构所有,如涉及侵权,请及时联系我们删除。




上一篇:Codex 0.142.0 发布:修复 SQLite 日志 churn 引发的 SSD 写入放大
下一篇:智能体Skills安全危机全解:越狱、挖矿与后门三大威胁剖析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-24 21:32 , Processed in 0.761561 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表