数字储能网欢迎您!
当前位置: 首页 >新闻动态>国内新闻 返回

大规模 AI 算力对数据中心电力系统的挑战

作者:数字储能网新闻中心 来源:Uptime Intelligence 发布时间:2026-02-25 浏览:

数字储能网讯:在训练大型生成式AI 模型时,数据中心正在面对一种前所未有的电力负载行为。这类负载通常被归类为高性能计算(HPC),但其挑战并不只是 GPU、本身的功率密度,或液冷技术的引入——这些在传统 HPC 场景中早已存在。

真正让 AI 计算“特殊”的,是其运行时电力行为(runtime power behavior):在训练基于 Transformer 架构的模型时,大规模计算集群会产生高度同步、频繁且幅度极大的阶跃负载(step load)变化,对数据中心配电系统与电能质量提出新的挑战。

为什么 AI 训练负载与传统 IT/HPC 不同

在大多数数据中心中,成千上万台通用服务器的功率变化是不一致的。即便单台服务器功率突变,整体负载仍然相对平滑。而在 AI 训练集群中,情况完全不同:

数十甚至数百台GPU 服务器在几乎同一时间进入高负载或低负载状态

功率变化与模型训练步骤强相关,通常每1–2 秒发生一次

负载波动并非随机,而是高度可预测、却难以被传统配电系统“消化”

即便与其他 HPC 集群相比,AI 训练的功率波动也更为剧烈。这源于三方面的叠加效应:

Transformer模型的计算节奏

以峰值性能为目标的现GPU 架构

硅片在热与功率预算允许下的“机会性超频”行为

同步功率波动带来的现实影响

根据 Uptime Intelligence 的分析,在最极端情况下,AI训练过程中系统级功率的低点与高点差值可能超过100%,也就是说,功率几乎在毫秒级内完成“翻倍”。这种情况每隔几秒就会反复出现,通常发生在 GPU 从短暂低负载状态迅速进入高强度计算阶段时。 

这种情况通常发生在GPU 加载一批权重并开始训练时,伴随明显的电流尖峰(di/dt极高)。GPU 会在此前计算“间歇期”积累的热裕量基础上,短时间突破其标称 TDP。

单台服务器的这种行为并不罕见,但在AI 训练集群中,它们是同步发生的。即便只是由几十个机柜组成的中等规模集群,也可能导致:

数百kW,甚至数MW 级别的交流电负载突变

电压暂降、暂升

谐波放大、次同步振荡

对母线、断路器、UPS、变压器造成额外应力

在负载结构单一、缺乏“缓冲负载”的专用 AI 数据中心中,这种风险尤为明显。

根据多家电气设备厂商(ABB、Eaton、施耐德、西门子、维谛等)及行业研究机构的综合判断,只要保持在额定负载范围内,现代配电设备应该能够处理人工智能造成的电力波动。

AI 正在重塑IT 容量的定义

传统容量规划通常基于以下假设:

以 IT 设备铭牌功率为上限

再考虑 25%–50% 的折减系数

原因是负载不一致、软件很少跑满

但 AI 训练系统正在打破这一逻辑。在大型 AI 集群中,瞬时功率变化可能类似“准浪涌电流”,其峰值甚至可能超过系统的持续额定功率。这些并非偶发事件,而是在训练过程中反复出现。

虽然电气设备本身允许短时过载,但问题在于:

这些过载可能每年发生数百万次

设备并非为“长期、重复性过载”而设计

长期结果可能是:

电磁与机械疲劳

热量逐步累积(升温快、降温慢)

元器件寿命缩短甚至失效  

新一代 AI 系统放大了这一挑战

早期(2022–2024)主流 AI 系统中:

单台8-GPU 服务器功率波动约 4 kW

单机柜(4台)波动约 16 kW

在 40kW 级机柜中,超标概率相对有限

但新一代系统正在改变这一平衡:

单GPU 功率已超过 1 kW

GPU 占据系统功率预算的比例显著提升

直接液冷(DLC)减少了风扇等“稳定负载”

更高的热效率反而释放了更大的功率冲击空间

以基于 NVIDIA GB200 NVL72 架构的机架级系统为例,机架功率可能在极短时间内从 60–70 kW 跃升至 150 kW 以上,而其额定功率约为 132 kW。根据Uptime 的评估,在极端情况下,瞬时过载幅度可达约 20%,这对断路器选型、母线容量、插接单元和导体布局都提出了更高要求。

图 1 展示了基于 GPU 的计算集群在运行 Transformer 模型训练工作负载时的典型功耗曲线,可见其功率需求具有明显的峰值波动特征。(算法数据,非真实世界数据)


可行的缓解思路与工程实践

目前,数据中心尚难以完全“消除”这类功率波动,但通过系统层面的协同可以显著降低风险。

第一,负载多样化,而非“纯 AI 化”

将 AI 训练负载与其他 IT 负载混合部署,可显著平滑整体功率曲线。即便无法共享配电,也应尽量共享柴油发电机组,因为发电机对快速、大幅波动最为敏感。

第二,UPS 选型与冗余策略要更保守

更大容量的 UPS 通常具备更高的内部电容,有助于吸收瞬时波动。同时,采用更高冗余等级(如N+2)可避免 UPS 长期处于边缘过载状态,尤其是在涉及电池频繁充放电的场景。

第三,善用服务器功率与性能管理工具

AI 服务器并非“不可控黑盒”。通过功率封顶、关闭加速频率、限制性能状态、设定温度上限等方式,可以有效削峰。

同时,可通过关闭深度节能模式(如 CPU/GPU 的休眠状态)来抬高功率“地板”,减少上下波动幅度。最新一代 GPU 还支持“功率平滑(Power Smoothing)”机制,可限制功率变化速率。

电气厂商正在研究超级电容、新型储能、电池或飞轮等方案,用于吸收高频、大功率冲击。但长期来看,从IT 硬件与软件层面抑制波动,往往比单纯增加电气缓冲更经济、更可持续。


分享到:

关键字:算力

数字储能网版权说明:

1、凡注明来源为“数字储能网:xxx(署名)”,除与数字储能网签署内容授权协议的网站外,未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用上述作品。

2、凡本网注明“来源:xxx(非数字储能网)”的作品,均转载与其他媒体,目的在于传播更多信息,但并不代表数字储能网赞同其观点、立场或证实其描述。其他媒体如需转载,请与稿件来源方联系,如产生任何版权问题与本网无关。

3、如因作品内容、版权以及引用的图片(或配图)内容仅供参考,如有涉及版权问题,可联系我们直接删除处理。请在30日内进行。

4、有关作品版权事宜请联系:13661266197、 邮箱:ly83518@126.com