近日,英伟达宣布将举办一场私人峰会,邀请关注数据中心电力问题的初创公司共同参与,以应对可能阻碍人工智能发展的核心能源难题。当前,大模型的训练与推理对算力的需求呈指数级增长,数据中心的能耗问题变得空前突出。国际能源署(IEA)数据显示,全球数据中心的电力消耗已占全球总用电量的1%至2%,而在AI部署密集的区域,这一比例更高。生成式AI的爆发性增长,使得单个大型AI模型训练的能耗,甚至堪比数百户家庭一年的用电总量。
与此同时,电网基础设施更新滞后、可再生能源供给不稳定、高峰时段电力调配困难等一系列问题,使得数据中心频繁面临供电不足、甚至被迫限电停机的风险。无论是美国得州因极端天气导致的电网崩溃,还是中国部分地区对高耗能数据中心实施的用电配额管理,都凸显了这场能源危机的紧迫性。作为AI算力的核心提供者,英伟达举办此次峰会,旨在汇聚产业智慧,共同探索破局之道。
在近期举行的OCP全球峰会上,英伟达发布的800V直流供电白皮书,为未来AI数据中心的供电路线图指明了清晰方向。传统数据中心普遍采用交流供电,电流需要经过变压器降压、再整流为直流后才能供服务器使用,过程中存在多次能量转换,整体能效通常只有85%到90%。而英伟达力推的800V高压直流(HVDC)供电系统,能够将电网的高压直流电直接输送至服务器机柜,大幅减少中间转换环节,从而将供电效率提升至95%以上。
800V直流供电系统的优势非常显著。根据英伟达白皮书的数据,在相同线规下,其可承载的功率比415V交流系统高出150%以上。此外,其三线制直流布线方式还能节省材料成本,并简化安装与维护流程。
为加速该架构的落地应用,英伟达联合了多家顶尖的供应链伙伴,提供基于SiC(碳化硅)和GaN(氮化镓)的高效功率器件,以支持高压、高效率的电源转换。台达电子等电力系统组件领域的领导者,为方案的广泛应用奠定了基础。在中国本土供应链中,苏州英诺赛科作为全球首家量产8英寸硅基氮化镓晶圆的公司,也是国内唯一入选英伟达800V架构供应商名录的芯片企业;深圳麦格米特则是英伟达GB200服务器电源的独家代工商,其产品在兼容性和效率方面表现突出;领裕国际也凭借其专业能力成为了关键供应商之一。
按照英伟达规划的技术路线,800V直流供电架构的推广将分为三个阶段逐步推进:首先是在现有数据中心机房内增设800V直流电源柜;随后实现交流与直流供电的混合架构;最终目标是实现完全直流化,构建起端到端的高效直流供电链路。
AI数据中心的供电系统是一个复杂且精密的链条,涵盖了从电网接入与配电、UPS不间断电源系统、PDU(电源分配单元)、服务器电源模块,到最底层的芯片级供电管理等多个关键环节,每个环节都存在能效瓶颈和巨大的优化空间。
当前,电网接入与配电环节面临诸多挑战。传统交流电网的波动性和峰值压力,难以匹配AI负载持续高功耗的特性。为此,行业提出了多种应对方案:引入集成本地光伏、储能电池和柴油发电机的微电网系统,以实现更高程度的能源自治;与电网公司合作参与需求响应计划,在电价低谷时段集中进行高强度运算,以减轻电网高峰压力;部署智能配电管理系统,例如利用AI驱动的负荷预测与调度平台,动态调整不同机柜的供电优先级。
在UPS系统方面,传统的铅酸电池UPS存在响应速度慢、寿命短、维护成本高等缺点。因此,新型解决方案应运而生,例如锂电UPS、飞轮储能和氢燃料电池。微软已在部分数据中心测试将氢燃料电池作为主电源,不仅实现了零碳排放,还具备强大的续航能力。同时,可按需扩容的模块化UPS设计能够避免能源的过度配置,正逐渐成为行业趋势。
在PDU与服务器电源模块层面,提升电能转换效率是核心目标。800V直流供电在此取得了关键突破,采用GaN和SiC等宽禁带半导体材料制造的电源转换器,可以有效降低开关损耗,提升高频工作效率。谷歌为其定制服务器全面采用高效电源模块,效率超过了96%,并通过开源设计推动了整个行业的进步。
芯片级供电管理是最精细也是最关键的节能战场。现代AI芯片功耗高达数百瓦,且负载波动极为剧烈,传统的固定电压供电方式极易造成能源浪费。为此,多家芯片企业推出了各自的创新方案。
英伟达在其H100和B200 GPU中引入了动态电压频率调节(DVFS)结合精细粒度电源门控技术,能够根据实时计算任务动态调整核心电压与频率,并使非活跃单元自动断电,实现了真正的“按需供电”。同时,通过NVLink-C2C芯片互连技术优化了芯片间通信的能效,减少了无效功耗。
AMD在其MI300系列AI加速器中采用了3D V-Cache堆叠与先进封装技术,缩短了数据传输路径,从而降低了功耗。此外,其集成的专用电源管理单元(PMU)支持多级休眠模式,可在芯片空闲时将功耗降至最低。
谷歌自研的TPU(张量处理单元)则从架构层面进行了重构,其采用的脉动阵列设计实现了数据流驱动计算,极大减少了因数据搬运带来的能耗。最新一代TPU v5p的能效比相比传统GPU提升了约3倍。
寒武纪的MLU370系列支持多精度计算切换,在推理任务中可自动切换至低精度运行以节省电力;壁仞科技的BR100芯片则采用“异构融合架构”,将计算、存储与供电管理功能集成于单芯片内,减少了外部供电的损耗。
针对AI数据中心的“电力短缺”与“供电瓶颈”,上游的电源管理芯片和功率半导体厂商也从材料、架构、控制算法三个维度持续进行创新。
在材料方面,传统硅基芯片已难以满足需求。氮化镓(GaN)材料允许电源工作在更高频率,从而缩小体积、降低损耗;碳化硅(SiC)则具有更强的耐压和耐热性,适合用于服务器电源的前端,以降低高压端的传导损耗。例如,纳微半导体推出的GaNFast™芯片,其4.5kW服务器电源方案的效率超过97%;德州仪器推出了基于GaN的集成电源模块,并与英伟达合作开发了支持800V直流架构的芯片。
在架构方面,将电压调节模块(VRM)移至更靠近处理器的位置,可以减少线路电阻带来的损耗;采用数字电源管理,用数字信号处理器(DSP)取代传统的模拟控制,可以实现对输出的实时监控与调整。
在控制策略上,自适应电压缩放(AVS)技术通过在芯片内部集成传感器实时监测负载,动态调整供电电压,从而消除了为保障稳定性而预留的“电压裕量”所带来的浪费。AMD的处理器广泛支持该技术,并配合矽力杰等公司的方案实现全链路的动态调节。
除了芯片层面的优化,行业还在探索更多系统级的前瞻性解决方案,以进一步破解数据中心的能源困局。从系统层面看,液冷冷却技术的普及间接缓解了电力压力。传统风冷效率较低,需要消耗大量电力用于空调制冷,而液冷技术可以将散热系统的能耗降低40%以上,从而让更多的电力被用于实际计算。目前,英伟达、阿里云、腾讯等公司均已部署了大规模液冷数据中心。
应对数据中心的电力短缺,未来不能仅依赖于单一技术节点的突破,而需要构建一个“绿色算力生态系统”,从芯片设计、服务器架构、供电系统到冷却方案、能源来源,进行全面、协同的优化。此外,近期国内外已有多家企业开始探索在太空建设数据中心的可能性,这也不失为一种另辟蹊径的探索方向。英伟达即将举办的电力短缺峰会,正是希望通过汇聚全球产业智慧,共同碰撞出破解数据中心能源困局的新思路与新方案。
