人工智能数据中心和电能质量——一种新的电网干扰类别
| 负载类型 | 超大规模人工智能数据中心——GPU集群, 服务器电源, 先进的冷却, 不间断电源系统 |
| 规模 | 100 MW to 1+ 每个园区 GW——单个设施的发电量现已超过小型发电站的发电量 |
| PQ 与 PQ 的关键区别. 传统直流 | AI 训练创建同步 GPU 操作 - 数百万瓦在一秒内变化 - 创建传统数据中心中未知的振荡负载特征 |
| 谐波轮廓 | THD 经常超过 5% — 第三名, 5日, 第 7 个主要因素——与电网阻抗的并联谐振风险 |
| 瞬态负载斜坡率 | 训练突发启动期间每秒几兆瓦 — 导致 PCC 上的电压闪烁和频率偏差 |
| 电网电压暂降风险 | 电压骤降期间 UPS 同时断开 — 弗吉尼亚州北部: 数百兆瓦同时断开 |
| 记录的电网事件 | 由数据中心设施每秒一次的电压骤降触发的 Dominion 能源电网事件 |
| 监管差距 | 没有针对人工智能数据中心负载行为的特定网格代码 - IEEE 1547 以及为发电机编写的等效欧洲规范, 非线性负载不大 |
01 背景——当数据中心成为网格规模的问题时
二十年来, 数据中心作为设施级电能质量问题进行管理: 大量吸收谐波电流的单相开关模式电源, 需要仔细确定中性导体的尺寸, UPS 穿越规范, 偶尔在配电板级进行有源谐波滤波. 他们对电网的影响可以忽略不计—— 10 兆瓦数据中心连接到 500 MVA变电站是 2% load, 不是电网稳定性问题.
这已经改变了. AI模型训练需要数万个GPU加速器同时运行, 每个机架的汲取功率密度为 30–100 kW, 的建筑物中 100 兆瓦至数百兆瓦. 人工智能数据中心高度集中的地区——弗吉尼亚州北部, 凤凰, 新加坡, 阿姆斯特丹 - 法兰克福走廊 - 各个传输节点现在服务于千兆瓦的人工智能计算负载. 在这个规模上, 数据中心的电能质量行为不再是设施问题. 这是一个网格问题.
2010 年代的传统企业数据中心消耗 5-20 MW,且相对稳定, 连续负载曲线. 超大规模人工智能训练设施 2025 消耗 100–500 MW 的高动态负载曲线,每秒变化数十兆瓦. 北弗吉尼亚数据中心走廊现在容纳了超过 3 单个区域传输系统上互联数据中心负载的 GW. 当训练作业完成时, 或者当故障触发多个设施同时 UPS 断开连接时, 瞬时负载变化相当于失去一台大型发电机组,引发了与频率稳定性问题相同的问题,从而推动了低频减载方案的开发.
02 另一种负载——GPU 训练签名
传统数据中心负载 — Web 服务器, 存储系统, 网络设备——以相对平稳的方式取电, 连续图案. 各个服务器的消耗随利用率的变化而变化, 但数千个不同工作负载的总和平均得出一个稳定的值, 总需求缓慢变化. 这种统计平均是传统数据中心负载在变电站层面具有良好功率因数和相对较低谐波含量的原因.
人工智能训练负荷打破了这种平均假设. 分布式GPU训练期间, 数千个 GPU 紧密同步运行——它们在前向和后向传递过程中同时计算, 然后在梯度同步步骤中同时进行通信, 然后再次计算. 这种同步操作会产生振荡负载特征: 整个设施以训练算法的迭代频率确定的速率在高功率计算阶段和低功率通信阶段之间交替.
AI 训练负载中统计平均的损失是根本性的——这不是一个可以通过更好的电源规格来修复的设计缺陷. 分布式训练算法需要GPU同步. 训练运行中的每个 GPU 必须在同步步骤开始之前完成其梯度计算, 并且每个 GPU 必须在下一个计算阶段开始之前接收更新的梯度. 交替的高功率和低功率阶段是工作负载的固有属性, 不是电源设计的产物. 可应用平滑——机架级电池, 固件控制的斜坡速率限制, 通信阶段的虚拟工作负载注入——但不能在不影响训练效率的情况下完全消除.
03 设施层面的电能质量问题
谐波
GPU 服务器电源是开关模式转换器 - 它们消耗非正弦电流,THD 通常超过 5%, 以第三名为主, 5日, 和七次谐波. 在规模上 100 MW人工智能数据中心,数千个服务器电源同时运行, 设施变电站的总谐波电流可能很大. 文献中引用的一家设施在其供电网产生过多的电压谐波失真后,需要安装专用的谐波缓解解决方案.
人工智能数据中心特有的谐波风险(超出传统数据中心产生的风险)是并联谐振. 在高密度设施中快速安装大型功率因数校正电容器组和 UPS 电容器级可以在特定谐波频率下产生谐振电路. 当设施的谐波电流与网络的谐振频率一致时, 谐波电压被放大——可能达到导致变压器过热的水平, 继电保护误动作, 或所连接的配电网络中的设备损坏.
电压闪变和频率偏差
节中描述的同步训练突发负载特征 02 在公共耦合点产生电压闪变. 当整个设施从通信阶段负载上升到计算阶段负载时(一秒内变化数十兆瓦),PCC 处的电压会短暂下降, 然后随着电网调频系统响应而恢复. 如果此斜坡发生的速率落在人类视觉敏感度峰值的 1–15 Hz 频率范围内, 它会对连接到同一变电站的其他客户产生可察觉的光闪烁——这是一个类似于 CS06 中描述的工业焊机闪烁的社区影响问题, 但在更大的范围内.
文献中记录的技术分析描述了 Dominion Energy 系统上由数据中心设施触发的真实电网事件,该事件每秒恰好产生一次电压骤降(训练工作负载的迭代频率). 常规的, 精确定时的电压暂降传播到同一变电站总线上的其他客户, 对对此电源干扰频率敏感的设备造成系统干扰. 这不是理论上的风险. 这是一个记录在案的操作事件,具有现有电能质量标准框架未预见到的已确定原因,因为该框架是针对扰动频率固定的负载编写的 (谐波) 或随机 (电机启动, 电弧炉), 并非故意以亚赫兹频率周期性.
电压不平衡和间谐波
大型人工智能数据中心在三相配电系统中具有密集的单相服务器负载,当负载在各相之间不完美平衡时,会产生电压不平衡. 来自三重谐波的中性电流(在开关模式电源中占主导地位的三次谐波)加剧了不平衡问题. 另外, 高频 GPU 电源转换器中的某些开关模式会产生间谐波分量(不是基波整数倍的频率分量),这可能会与其他设备产生拍频,并导致标准谐波限制无法解决的异常干扰模式.
04 电网级风险——超越设施围栏
千兆瓦级规模和地理集中度, AI 数据中心 PQ 行为产生的风险远远超出了数据中心自身的配电系统:
| 风险 | 机制 | 记录规模 | 先例 |
|---|---|---|---|
| UPS 同时断开 | 电压暂降期间, 多个设施同时断开 UPS 负载 — 瞬间移除数百兆瓦的负载 | 北弗吉尼亚州: 2.6 发现 GW 同时断开风险 | ERCOT 分析——电网不稳定阈值 |
| 频率不稳定 | 训练爆发带来的多兆瓦/秒负载斜坡挑战频率调节——类似于发电机跳闸事件 | 高密度区域记录的 ±0.5 Hz 频率偏差 | 多米尼恩能源电网事件 |
| 谐波谐振传播 | 来自大型设施的谐波电流与网络阻抗相互作用 - 在谐振频率下放大 | 变压器过热, 继电保护问题 | 多个记录的需要谐波滤波器的事件 |
| 社区规模的闪烁 | 以亚赫兹速率进行的定期训练突发转换会在共享变电站总线上产生系统性光闪烁 | 对同一变电站的所有客户可见 | Dominion Energy 每秒一次电压骤降事件 |
05 缓解措施——技术和操作方法
减轻人工智能数据中心 PQ 影响可在两个层面上进行: 设施级别 (减少数据中心向电网排放的污染物) 和网格级别 (提高电网吸收数据中心排放的能力).
设施层面的措施
- 有源谐波滤波器 (有源滤波器) 和静态无功发生器 (静止无功发生器) — 可以将设备谐波 THD 降低至以下 3%. 当设施的谐波电流, 结合网络阻抗, 产生高于 IEEE 的电压 THD 519 PCC 的限制
- 机架级电池储能 — 通过在计算到通信阶段转换期间提供或吸收功率来缓冲训练突发负载瞬变. Tesla Megapack 在 AI 数据中心园区的部署已证明可以有效地平滑负载 100+ 兆瓦级
- 固件控制的 GPU 斜坡速率限制 - 软件约束限制了 GPU 在训练突发启动期间增加功耗的速率, 减少网格看到的 dP/dt 10+ MW/s 至 1–2 MW/s 的受控斜坡
- 虚拟工作负载注入 - 通过运行非关键计算任务在通信阶段保持最低功耗, 减少振荡特征的深度并限制负载摆动幅度
- 相位平衡和负载重新分配 — 跨相服务器负载的系统分配,以最大限度地减少设施变电站的中性线电流和电压不平衡
网格级措施
- 协调的 UPS 穿越规范 — 要求 AI 数据中心 UPS 系统在断开连接之前将电网连接维持在标称电压的 50-70% 至少一秒钟, 防止同时大规模断线风险
- 故障穿越要求 — 类似于 IEEE 对可再生发电机的要求 1547 和欧洲电网代码, 要求人工智能数据中心在短期电压和频率干扰期间保持连接,而不是断开连接以保护硬件
- PCC 的动态性能要求 ——规定谐波发射限值, 斜坡速率限制, 无功功率支持义务, 和电压容差范围作为超过规定阈值的设施并网批准的条件
多家电网运营商 — ERCOT, PJM, 国家电网——正在积极制定大型人工智能数据中心负载的具体电网连接要求. 行进方向明确: 数据中心规模超过阈值 (通常为 50–100 MW) 将需要证明故障穿越能力, PCC 的谐波合规性, 和受控斜坡率行为作为传输连接的条件. 无法证明合规的设施将面临谐波缓解和电池存储的强制改造, 或连接到具有增强阻抗的专用变电站. 主动 PQ 合规性的投资案例非常引人注目.
06 公用事业电能质量视角
自 20 世纪 90 年代 VFD 普及以来,人工智能数据中心代表了公用事业配电工程师面临的最重大的新类别电能质量挑战. 平行是有启发性的: 最初安装 VFD 时没有 PQ 评估要求, 造成谐波问题,通过 IEEE 的追溯应用花了十年时间才得到解决 519. 同样的模式已经在人工智能数据中心中显现出来——快速部署, 连接批准时的 PQ 要求不足, 越来越多的电网影响记录正在推动追溯监管行动.
主要区别在于规模. 不合规的 VFD 安装会影响一个设施,甚至可能影响几个相邻的客户. 一 500 谐波抑制不足且无故障穿越要求的 MW AI 数据中心可能会影响区域变电站区域的数千名客户, 其在电压暂降期间同时断开可能会威胁整个输电区域的电网稳定性.
公用事业电能质量工程师现在被要求评估在编写评估框架时不作为负载类别存在的设施的电网连接应用. 在IEEE 519 框架解决谐波问题. 闪烁标准解决了电压波动问题. 两者都不是为在精确的亚赫兹频率下产生兆瓦每秒斜坡的负载而设计的, 可以同时断开数百兆瓦的电源以响应电网电压事件, 或者将千兆瓦的敏感非线性负载集中在单个区域传输总线上. 工程界正在适应——本案例研究中引用的论文代表了这种适应的前沿. 但目前的监管框架与大型人工智能数据中心的实际电网影响差距很大, 公用事业分配工程师负责实时管理这一差距,而标准委员会则致力于缩小这一差距.
参考文献
- 李波等. “人工智能数据中心的电源: 能源需求, 电网影响, 挑战和前景。” 能源, 19(3), 722, 一月 2026. DOI: 10.3390/EN19030722. 开放获取 CC BY 4.0.
- 张燕等. “人工智能数据中心的电力需求和电网影响: 挑战与前景。” arXiv:2509.07218, 九月 2025. 可用的: arxiv.org/abs/2509.07218
- 赵瑟等. “人工智能数据中心融入电网的技术挑战——一项调查。” 能源, 19(1), 137, 十二月 2025. DOI: 10.3390/EN19010137. 开放获取 CC BY 4.0.
- 国家研究委员会 / 埃科特. 大负载集成研讨会演示. 北美电力可靠性公司, 四月至五月 2025.
- IEEE StD里 519-2022. 电力系统谐波控制 IEEE 标准. IEEE, 纽约, 纽约, 2022.
- IEEE StD里 1547-2018. 分布式能源与相关电力系统接口互连和互操作性的 IEEE 标准. IEEE, 纽约, 纽约, 2018.
主要来源: 李 B 等人。, 能源 19(3):722 (2026), DOI: 10.3390/EN19030722, 抄送 4.0 · 张Y等人。, arXiv:2509.07218 (2025) · 赵S等人。, 能源 19(1):137 (2025), 抄送 4.0. 记录的电网事件: 统治能源系统, 正如Zhang等人报道的. (2025).
SVG 图和 Utility PQ Perspective 部分 (部分 6) 是 Denis Ruest 的原创 IPQDF 编辑内容, 硕士. (应用), P.Eng. (ret。). IPQDF 不声称原始研究的作者.
