找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2723

积分

0

好友

393

主题
发表于 昨天 00:32 | 查看: 5| 回复: 0

NVIDIA Grace Blackwell 系列超级芯片对比

NVIDIA Blackwell 平台的问世,特别是 GB200 NVL72 机柜级系统,标志着一个行业拐点——直接芯片(Direct-to-Chip, DTC)液冷技术从高性能计算的利基解决方案,转变为生成式人工智能基础设施不可或缺的主流技术。这一转变的根本原因在于 Blackwell 架构带来了前所未有的热能挑战,单个机柜的功耗高达 120-140kW,远超传统风冷技术的物理极限。

冷板式液冷系统组成结构示意图

散热系统的关键在于四大硬件支柱:冷板、冷却液分配单元、歧管与管路以及快速断开接头。其中冷板凭借其在材料和微加工方面的要求,占据了约 40-45% 的成本份额,成为成本最高的组件。紧随其后的是作为系统“心脏”的 CDU,其成本占比约为 30-35%。

令人关注的是,尽管快速断开接头体积小,但因其高精度和大规模部署,其成本贡献达到了 15-20%,构成了一个关键的成本中心和潜在的供应链瓶颈。歧管与管路则占据剩余的 5-10%。

一、英伟达冷板式液冷拆解

1、关键四大零件

  • Cold plate(液冷板)
  • CDU(Coolant distribution unit,冷却液分配单元)
  • Manifold(冷却水歧管)
  • UQD(冷却液快接头)

内存与 SSD 液冷模组分解图

GB200/GB300 液冷系统术语详解表

2、液冷系统组成及成本拆解

1. GB200散热系统成本

NVIDIA Grace Blackwell 系列超级芯片内部结构

液冷系统组成及成本拆解

GB200 NVL72 L2L 服务器机架 BOM 拆解表

GB200 NVL72 L2L 成本占比饼图

GB200 NVL72 L2L 液冷服务器机柜成本拆解明细表

  • 主要组件成本占比
    • 冷板:约 40%-45%,是成本最高的组件,因需使用高纯度铜材及精密微加工工艺。
    • 冷却液分配单元:约 30%-35%,包含工业级泵、热交换器等复杂部件。
    • 快速断开接头:约 15%-20%,虽体积小但单价高、使用数量多。
    • 歧管与管路:约 5%-10%,成本相对较低。
  • 单机柜总成本:约 10 万美元,其中四大组件(冷板、CDU、UQD、歧管)占总成本 90% 以上。

2. GB300散热系统成本

GB300 与 GB200 性能参数对比表

  • 关键改进与成本变化
    • 冷板设计:采用独立液冷板,为每个 GPU 芯片配备专用冷板,散热效率更高但复杂性增加。
    • 快速接头:采用新型 NVUQD03 接头,尺寸缩小至前代的 1/3,单位成本降至 40-50 美元,但总数量翻倍(每个计算托盘需 14 对接头)。
    • 系统总成本:单个 GB300 机架液冷系统成本约 38 万美元,占机架总成本的 42%,但通过优化设计和材料,总体拥有成本较 GB200 降低 20%。

3. 成本驱动因素

主板散热结构示意图

  • 材料与工艺:高纯度铜、液态金属(如镓基合金)等材料成本较高,微通道冷板的精密制造工艺也增加了成本。
  • 组件数量:GB300 因采用分布式冷板设计,快速接头数量大幅增加,导致相关成本上升。
  • 系统复杂性:液冷系统的集成度和可靠性要求高,CDU、歧管等组件的复杂性也推高了成本。

二、英伟达GB200/GB300冷板式液冷供应商拆解

1、英伟达GB系列供应链生态全景

  1. 一级供应商(直接合作):Cooler Master(冷板+快接头)、AVC(冷板/CDU组装)、Auras(歧管系统)、Vertiv(液冷机柜)主导核心技术,掌握液冷系统 35%+ 价值量(单模块成本占比最高达 35%-40%);
  2. 二级供应商(关键部件):安费诺(快接头公端)、川环科技(PTFE管路)、精研科技(定制冷板)提供关键部件;
  3. 三级供应商(元件/材料):鼎通科技(连接器外壳)、中石科技(导热材料)、英维克(CDU模块)贡献基础元件。

英伟达GB200/GB300冷板式液冷系统供应商分级表

总结

GB200 和 GB300 的液冷系统成本高度集中在冷板、CDU、UQD 等核心组件,这反映了 AI 算力爆发对散热效率的极致追求。GB300 通过优化设计和材料,在提升性能的同时旨在降低总体拥有成本。随着 计算功率 需求的持续增长,高效的液冷技术已从可选项变为必选项,其供应链的成熟与成本优化将直接影响下一代 云原生 AI 基础设施的部署规模与效率。关于更多前沿技术讨论与资源,欢迎访问 云栈社区 进行交流。




上一篇:LangGraph 持久化机制详解:线程、检查点与共享内存存储实践
下一篇:TanStack全家桶:一套框架无关的前端状态管理解决方案
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-18 18:12 , Processed in 0.247384 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表