找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3907

积分

0

好友

513

主题
发表于 2 小时前 | 查看: 3| 回复: 0

热水浴缸的水温通常在 38–40°C 左右,大多数人可能只能泡上 15 分钟就待不住了。而 NVIDIA 最新的 AI 服务器,其冷却液甚至可以运行得更“热”——最高可达 45°C(113°F)。这个更高的温度上限,恰恰是它能效更高的关键所在。

数据中心液冷系统示意图:45°C进液、55°C出液

英伟达Rubin平台45℃液冷能效革命宣传海报

NVIDIA 的 Rubin 一代 AI 基础设施,是全球首个实现 100% 液冷的数据中心平台——从 GPU、CPU 到 NVLink 交换芯片、网络交换机,每一颗芯片、每一个组件都完全通过液体在封闭循环中冷却,整个系统中没有任何风扇。该液冷方法来自 NVIDIA 的 DSX AI 工厂参考设计,这是一套用于设计、建设和运营完整 AI 工厂基础设施栈的最佳实践指南。

尽管每一代产品都在显著提升“每瓦算力”,但全液冷 AI 计算基础设施能够大幅降低数据中心的冷却能耗,从而在超大规模部署场景中显著减少整体能源消耗。

NVIDIA 数据中心冷却与基础设施负责人 Ali Heydari 表示:“NVIDIA 的 AI 工厂 DSX 参考设计实现了零水消耗——我们大幅减少了电力使用,也几乎完全消除了用水量。通过干冷器(dry-cooler)设计,这是一个封闭循环系统,不使用蒸发式水冷系统——除非在某些气候条件下,全年可能只有约 1% 的时间需要使用冷水机组。”

历史上,冷却系统最多可占数据中心总耗电量的 40%,因此这是最关键的能效优化领域之一,能够显著降低运营成本和能源需求。行业估算显示,将冷却系统温度提高仅 1°C,就可降低约 4% 的冷却能耗。在规模化情况下,这种节省非常可观。例如,一个 50 兆瓦的超大规模数据中心,通过转向液冷基础设施,每年可节省超过 400 万美元的冷却相关能源和用水成本。

在适宜气候条件下,NVIDIA 45°C 液冷架构可以实现无冷水机运行,仅依靠干式冷却器,将传统基于冷却塔的系统每兆瓦约 260 万加仑的用水消耗降低至接近零,实现最高 100% 的水资源节约。

其核心原因在于:传统风冷数据中心依赖大量冷空气来带走 IT 设备热量,在炎热天气下往往需要高能耗制冷基础设施。而 NVIDIA 的 45°C 液冷方案直接在芯片层面捕获热量,并通过高温液体循环传导热量,使室外干冷器可以高效排热,从而大幅减少机械制冷需求与用水消耗。

数据中心的环境温度实际上是灵活的——夏季高温空气也可以接受,因为服务器本身不依赖冷空气运行,真正承担散热任务的是液体。冷却液在封闭回路中循环,不需要持续补充水资源来进行冷却。

行业新标准

由于 NVIDIA Rubin 平台集成了 100% 液冷基础设施,所有为其构建的云服务商和数据中心运营商都在被动或主动地进行这一转型。

整个生态系统也在同步推进。施耐德电气旗下先进冷却部门 Motivair 多年来一直与 NVIDIA 的产品路线图协同开发,其总裁兼 CEO Richard Whitmore 表示,随着功率密度跨越临界点,空气冷却已不再可行,这一合作关系也愈发紧密。Whitmore 说:“当每颗芯片的功耗达到一定水平后,液冷就变成了必需品。”

AI 基础设施:比想象更“热”的世界

行业长期存在一种误解:数据中心越冷越高效。几十年前,人们认为如果数据中心不像冷库一样冰冷,就说明运行不正常。

但现实恰恰相反。芯片可以在远高于直觉的温度下稳定运行。硅处理器内部会产生巨大热量,而在 45°C 冷却液进入液冷系统后,流出时温度约为 55°C,已经吸收了芯片的全部热负载。但这并不会导致性能下降。处理器仍然能够保持满性能运行,因为冷板液冷系统能够将设备温度维持在验证过的安全范围内,即使冷却液入口温度达到 45°C 也是如此。

没有风扇、没有冷通道:完全不同的系统

走进传统数据中心,会立刻注意到两点:噪音(风扇通常会带来超过 85 分贝的噪声,需要佩戴护耳设备),以及冷热通道的物理布局——通过精细的气流组织将冷空气送入设备。

Rubin 架构彻底改变了这一切。

液冷系统乙二醇水回水管路标识

冷却液由 75% 水和 25% 丙二醇组成,通过冷板直接贴合处理器,将热量在源头带走。当冷却液在 45°C 运行时,在许多气候条件下,设施侧的循环系统可以直接通过室外干冷器排热,而无需开启机械制冷或风扇系统。

在 AI 工厂中,冷却液从冷却分配单元(CDU)流向服务器,在封闭回路中循环运行。这带来的不仅是能效提升,还可能实现完全零水消耗。在理想地理条件下(例如气候稳定且较凉爽的地区),液冷数据中心可以通过室外干冷器(本质是大型散热器盘管)直接向空气排热,从而完全不需要制冷设备。

该循环系统只需在建设时注入一次冷却液,随后在数据中心生命周期内封闭运行。同时,相比传统风冷系统,它占用的空间也显著减少。

Whitmore 表示:“在合适的地理位置和系统设计下,你甚至不需要任何制冷设备。只需要在室外放置大型散热器,用空气温度来完成散热,非常高效。”

不过,地理条件非常关键。例如苏格兰高地的数据中心与美国亚利桑那州的数据中心,其冷却策略会完全不同。但即使在炎热地区,45°C 液冷也能显著减少冷水机组的使用时间,使其只在极端高温天气下运行。

废热回收的新可能

该模型的另一个关键优势是废热回收(waste heat recovery),可以将 AI 工厂产生的余热用于为附近的商业或住宅建筑供暖。

一个长期未解决的工程问题

过去的液冷服务器通常是混合方案:GPU 和 CPU 使用冷板液冷,但其余组件仍依赖风冷,并通过散热片将热量排入空气。而在完全液冷架构中,所有组件都必须重新设计散热方式,使液体能够覆盖整个系统。

全液冷服务器高密度布线内部结构

NVIDIA 的热工程团队重新设计了这些组件的散热路径,通过单一进出口将冷却液分配到多个高功耗芯片,形成更简洁的板级冷却架构。其结果之一是:Rubin 服务器正面是封闭整洁的面板,而传统风冷服务器则需要穿孔设计。另一个结果是:全液冷系统允许更高的机架密度,原本需要 6U 的系统现在可以压缩到 2U,实现更高算力密度、更小空间占用以及更低噪音。

AI 负载正在快速增长

AI 工作负载并没有减轻,反而在持续加速。推动数据中心建设的算力需求增长速度,已经超过几乎所有其他基础设施投资领域。如果没有在散热效率上的突破,AI 规模化运行的能源成本将与硬件规模同步增长。

而将冷却液提升至 45°C 的液冷架构——比热水浴缸还热,却更环保——正是行业用来打破这一增长约束的关键工具之一。

云栈社区持续追踪 AI 数据中心液冷与绿色计算趋势。




上一篇:用Codex+Hyperframes零代码搭建AI知识视频生成流水线:NoteBookLM平替全攻略
下一篇:Codex 0.142.0 发布:修复 SQLite 日志 churn 引发的 SSD 写入放大
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-24 21:47 , Processed in 1.115153 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表