麦肯锡预测,到2030年,支持人工智能的数据中心容量将以每年33%的速度增长。国际能源署警告称,到2020年,数据中心的电力需求可能会增加一倍以上。美国电力研究院(EPRI)最近的研究揭示了一个更为显著的变化:机架密度将从8-40千瓦跃升至130-600千瓦,预计到2028年每个机架的功率将达到1.2兆瓦。
2025年9月5日
图形处理单元 (GPU) 集群的耗电量如今堪比一座小城市,有些集群仅仅训练一个模型就耗电100兆瓦时。人工智能的蓬勃发展迫使数据中心面临传统系统无法应对的需求。
麦肯锡预测,到2030年,支持人工智能的数据中心容量将以每年33%的速度增长。国际能源署警告称,到2020年,数据中心的电力需求可能会翻一番以上。美国电力研究院 (EPRI) 最近的研究揭示了一个更为显著的变化:机架密度从8-40千瓦跃升至130-600千瓦,预计到2028年每机架的耗电量将达到1.2兆瓦。正如NVIDIA的黄仁勋所说:“如果你的电力有限,你的收入也会受到限制。”
理解人工智能工厂:训练 vs 推理
并非所有人工智能设施都生而平等。人工智能训练数据中心,真正的“模型创建人工智能工厂”,运行着持续的高功耗工作负载,将散热系统推向极限。这些设施创建了驱动 AI 应用的大型语言模型 (LLM)。
AI推理数据中心则服务于不同的目的。这些“AI 部署工厂”处理实时用户交互——想想您使用 Copilot 或 ChatGPT 时的情况。它们面临着不可预测的使用高峰,同时保持全球用户群的即时响应时间。
行业需要能够实时适应变化的 AI 负载的动态热管理系统。
地理位置也很重要。行业趋势表明,推理设施的全球分布不均衡,亚太地区等地区与成熟市场相比可能服务不足,导致用户的性能差异。这种不平衡正在推动全球快速扩张,随着 AI 代币价格下降,行业专家预测,需要推理能力更靠近用户的新应用将激增。这需要能够适应不同气候和条件的适应性设施。对于数据中心而言,寒冷气候和温暖气候之间的差异可能巨大——寒冷的国家可以利用自然冷却,而温暖的国家可能需要大规模的冷却系统。
真正的挑战:热量和多变性
AI 工作负载不仅消耗更多电力,还会带来全新的运营挑战。与负载可预测的传统应用不同,人工智能会产生突发的功率峰值和强烈的热量爆发,这可能会使传统的冷却系统不堪重负。现代人工智能芯片运行时温度更高、密度更高,这带来了严峻的热管理挑战,迫使冷却系统达到极限。
这不仅仅是为了管理更高的基准功耗,而是为了构建能够实时适应工作负载在几毫秒内从中等强度过渡到最大强度的系统。为稳定状态操作而设计的传统冷却方法根本无法适应这种变化。
可持续发展的风险同样很高。麦肯锡的研究表明,人工智能基础设施的增长速度可能超过脱碳努力的速度,从而危及净零目标。国际能源署预测,到 2030 年,针对人工智能优化的数据中心所消耗的电力可能比日本目前全国的用电量还要多。
前进的道路:人工智能的自适应基础设施
该行业需要能够实时适应变化的人工智能负载的动态热管理系统。这意味着将智能控制、预测分析和自适应冷却技术嵌入到每个运营层。成功需要能够跨地域一致运行、适应当地条件且不影响性能的解决方案。
江森自控数据中心解决方案全球产品组合总监 Davin S. Sandhu 表示:“该行业非常了解如何在低密度和中密度场景下散热。但随着机架密度不断增加,您就必须开始讨论和沟通您是否拥有合适的热管理解决方案。”
“这时,拥有一个了解这些不同的热管理挑战和系统需求的合作伙伴就变得至关重要,这样您不仅能在当下取得成功,还能为未来做好准备。”
企业需要既了解技术复杂性又了解战略要务的合作伙伴。人工智能革命正在提高数据中心生态系统中每个人的风险,但它也为更智能、更可持续、更高效的基础设施开辟了非凡的可能性。
那些能够凭借合适的技术专长和战略合作伙伴解决这些复杂性的公司,才能脱颖而出。问题不在于我们是否准备好了,而在于我们是否会选择能够适应、扩展并满足未来性能要求的解决方案。
准备好让您的人工智能基础设施面向未来了吗?与江森自控合作,共同应对人工智能就绪数据中心的复杂性,从而保持效率和可持续性。