数字储能网讯:在训练大型生成式AI 模型时,数据中心正在面对一种前所未有的电力负载行为。这类负载通常被归类为高性能计算(HPC),但其挑战并不只是 GPU、本身的功率密度,或液冷技术的引入——这些在传统 HPC 场景中早已存在。
真正让 AI 计算“特殊”的,是其运行时电力行为(runtime power behavior):在训练基于 Transformer 架构的模型时,大规模计算集群会产生高度同步、频繁且幅度极大的阶跃负载(step load)变化,对数据中心配电系统与电能质量提出新的挑战。
为什么 AI 训练负载与传统 IT/HPC 不同
在大多数数据中心中,成千上万台通用服务器的功率变化是不一致的。即便单台服务器功率突变,整体负载仍然相对平滑。而在 AI 训练集群中,情况完全不同:
数十甚至数百台GPU 服务器在几乎同一时间进入高负载或低负载状态
功率变化与模型训练步骤强相关,通常每1–2 秒发生一次
负载波动并非随机,而是高度可预测、却难以被传统配电系统“消化”
即便与其他 HPC 集群相比,AI 训练的功率波动也更为剧烈。这源于三方面的叠加效应:
Transformer模型的计算节奏
以峰值性能为目标的现GPU 架构
硅片在热与功率预算允许下的“机会性超频”行为
同步功率波动带来的现实影响
根据 Uptime Intelligence 的分析,在最极端情况下,AI训练过程中系统级功率的低点与高点差值可能超过100%,也就是说,功率几乎在毫秒级内完成“翻倍”。这种情况每隔几秒就会反复出现,通常发生在 GPU 从短暂低负载状态迅速进入高强度计算阶段时。
这种情况通常发生在GPU 加载一批权重并开始训练时,伴随明显的电流尖峰(di/dt极高)。GPU 会在此前计算“间歇期”积累的热裕量基础上,短时间突破其标称 TDP。
单台服务器的这种行为并不罕见,但在AI 训练集群中,它们是同步发生的。即便只是由几十个机柜组成的中等规模集群,也可能导致:
数百kW,甚至数MW 级别的交流电负载突变
电压暂降、暂升
谐波放大、次同步振荡
对母线、断路器、UPS、变压器造成额外应力
在负载结构单一、缺乏“缓冲负载”的专用 AI 数据中心中,这种风险尤为明显。
根据多家电气设备厂商(ABB、Eaton、施耐德、西门子、维谛等)及行业研究机构的综合判断,只要保持在额定负载范围内,现代配电设备应该能够处理人工智能造成的电力波动。
AI 正在重塑IT 容量的定义
传统容量规划通常基于以下假设:
以 IT 设备铭牌功率为上限
再考虑 25%–50% 的折减系数
原因是负载不一致、软件很少跑满
但 AI 训练系统正在打破这一逻辑。在大型 AI 集群中,瞬时功率变化可能类似“准浪涌电流”,其峰值甚至可能超过系统的持续额定功率。这些并非偶发事件,而是在训练过程中反复出现。
虽然电气设备本身允许短时过载,但问题在于:
这些过载可能每年发生数百万次
设备并非为“长期、重复性过载”而设计
长期结果可能是:
电磁与机械疲劳
热量逐步累积(升温快、降温慢)
元器件寿命缩短甚至失效
新一代 AI 系统放大了这一挑战
早期(2022–2024)主流 AI 系统中:
单台8-GPU 服务器功率波动约 4 kW
单机柜(4台)波动约 16 kW
在 40kW 级机柜中,超标概率相对有限
但新一代系统正在改变这一平衡:
单GPU 功率已超过 1 kW
GPU 占据系统功率预算的比例显著提升
直接液冷(DLC)减少了风扇等“稳定负载”
更高的热效率反而释放了更大的功率冲击空间
以基于 NVIDIA GB200 NVL72 架构的机架级系统为例,机架功率可能在极短时间内从 60–70 kW 跃升至 150 kW 以上,而其额定功率约为 132 kW。根据Uptime 的评估,在极端情况下,瞬时过载幅度可达约 20%,这对断路器选型、母线容量、插接单元和导体布局都提出了更高要求。
图 1 展示了基于 GPU 的计算集群在运行 Transformer 模型训练工作负载时的典型功耗曲线,可见其功率需求具有明显的峰值波动特征。(算法数据,非真实世界数据)

可行的缓解思路与工程实践
目前,数据中心尚难以完全“消除”这类功率波动,但通过系统层面的协同可以显著降低风险。
第一,负载多样化,而非“纯 AI 化”
将 AI 训练负载与其他 IT 负载混合部署,可显著平滑整体功率曲线。即便无法共享配电,也应尽量共享柴油发电机组,因为发电机对快速、大幅波动最为敏感。
第二,UPS 选型与冗余策略要更保守
更大容量的 UPS 通常具备更高的内部电容,有助于吸收瞬时波动。同时,采用更高冗余等级(如N+2)可避免 UPS 长期处于边缘过载状态,尤其是在涉及电池频繁充放电的场景。
第三,善用服务器功率与性能管理工具
AI 服务器并非“不可控黑盒”。通过功率封顶、关闭加速频率、限制性能状态、设定温度上限等方式,可以有效削峰。
同时,可通过关闭深度节能模式(如 CPU/GPU 的休眠状态)来抬高功率“地板”,减少上下波动幅度。最新一代 GPU 还支持“功率平滑(Power Smoothing)”机制,可限制功率变化速率。
电气厂商正在研究超级电容、新型储能、电池或飞轮等方案,用于吸收高频、大功率冲击。但长期来看,从IT 硬件与软件层面抑制波动,往往比单纯增加电气缓冲更经济、更可持续。


