随着AI与高性能计算对算力需求的急剧攀升,全球正从10-15兆瓦的传统数据中心向50-100兆瓦乃至千兆瓦级的AI工厂演进。下一代AI超级芯片的运行功率预计将突破2800瓦,这使得散热成为关键挑战。
冷却效率之战:空气 vs. 液体
传统风冷数据中心存在显著的能效瓶颈:每瓦计算功耗需要匹配近1瓦的冷却功耗,意味着高达50%的能源被用于散热。相比之下,液冷技术能大幅提升能效,每瓦冷却功耗可支持高达10瓦的计算。核心能效指标——电力使用效率(PUE)直观反映了这一差距:风冷的PUE通常约为1.5,而液冷可将其降至1.1至1.04甚至更低。从1.5优化至1.1,意味着在同等能耗下,采用直接芯片液冷可额外支持约75%的计算负载。
市场分析也印证了这一趋势,液冷市场规模预计将从2024年的56.5亿美元增长至2034年的484.2亿美元。
核心技术路线:浸没式 vs. 直接芯片冷却
液冷主要分为浸没式冷却(Immersion)和直接芯片冷却(Direct-to-Chip)两大类。
浸没式冷却
浸没式冷却是将服务器等IT设备完全浸入装满冷却液的密封箱体中。
-
单相浸没
- 原理:设备浸没在油性冷却液中,液体吸热后温度上升,通过自然对流或泵送循环至热交换器冷却。
- 优点:可100%带走设备热量。
- 局限:冷却能力受液体流速限制,更适合500瓦及以下功率芯片;冷却液可能存在易燃性;与所有组件接触,可能影响设备长期可靠性;维护较为复杂。
-
两相浸没
- 原理:使用低沸点介电流体。芯片发热使液体沸腾产生蒸汽,蒸汽在箱体顶部遇冷(如冷水管)冷凝后回流。
- 优点:介电流体不导电,100%除热且无短路风险。
- 挑战:需要重型箱体和专门的基础设施,投资高昂;服务器必须与介电流体兼容,可能需要定制;设备维护和更换通常需要长时间停机;沸腾过程可能导致设备材料析出,需配备昂贵过滤系统;存在介电流体挥发的环境风险。
直接芯片冷却
该方法通过在CPU/GPU等核心发热部件顶部安装冷板来精确导热处理。
-
单相直接芯片冷却
- 原理:冷板内流通水或水乙二醇混合物,依靠液体流动带走热量。
- 局限:散热能力严格依赖水流量。芯片功率越高,所需流量呈线性增长(例如,冷却1.5千瓦GPU约需每分钟2升流量)。这带来了高压大流量管道的工程挑战,且存在潜在的漏水、腐蚀、生物滋生风险,维护成本较高。
-
两相直接芯片冷却
- 原理:冷板内封装安全传热流体。芯片热量使流体在低温下发生相变(沸腾),高效吸收热量并保持芯片温度稳定。
- 优势:散热效率高,可扩展性强,即使未来芯片功率倍增,冷板内温度仍能维持在流体沸点;无需大规模改造数据中心基础设施;无漏水风险,维护简单且环境友好。
面向未来:高功率芯片的冷却策略
尽管功率超过2500瓦的芯片预计将在2025年底后逐步登场,但基础设施的规划必须先行。许多超大规模运营商已因漏水风险和保险成本顾虑而谨慎评估水冷方案。未来的冷却系统必须在高效散热、可扩展性、可持续性与长期总拥有成本之间找到最佳平衡。
原文链接:https://insideainews.com/2025/04/24/the-ai-factory-heats-up-liquid-cooling-options-explained/
|