ピンハネ
发表了动态 · 2024/12/03 16:09
AWS宣布要对数据中心进行创新,通过液冷系统提高46%的电力效率,以迎接AI时代。
AWS宣布了面向下一代AI时代的大规模数据中心改革。通过引入液冷系统,实现了最多46%的冷却效率提升,增强了对AI处理中不可或缺的高密度服务器的支持。同时,通过简化电力供应系统,大幅提高了稳定性和效率。这些创新将使数据中心的能源效率比传统方法提高多达4.1倍。
AWS的新冷却系统是为了应对下一代AI工作负载而进行的雄心勃勃的技术革新。该系统的核心是采用公司自主开发的Trainium2芯片和NVIDIA的GB200 NVL72等高性能AI处理器直接与液体接触散热的“芯片直接液冷”方式。通过这种方式,即使是传统的空冷系统难以处理的高密度计算环境,也能实现有效的热控制。
值得注意的是,这个新系统设计成可以后期安装到现有的数据中心中。这意味着可以逐步升级AWS的现有基础设施,可以将大规模设备更新的停机时间和成本降至最低。
此外,AWS在液冷系统的开发中与主要芯片制造商密切合作。 NVIDIA的副总裁 Ian Buck强调了这种合作关系的重要性,称“可以有效冷却AI基础设施,同时将能源使用最小化”。
突出的技术特点在于可以灵活地将液冷和空冷结合在一起的多模态设计。对于进行高性能AI处理的服务器应用液冷,对于相对散热较少的网络设备和存储服务器等设备则使用传统的空冷。这样一来,可以根据每种设备的特性选择最佳的冷却方式。
这种新型冷却系统的效果已经得到验证,实证显示可以最多减少46%的机械能耗,用于冷却高峰时段。值得一提的是,这种显著提高的效率并不伴随着用水量的增加,这从环境负荷的角度看也是一项重要的成就。
AWS引入的新电力供应系统是一个雄心勃勃的举措,旨在从根本上审视数据中心的可靠性和效率。这项改革的核心在于尽可能简化电力从输电网到服务器的传输路径。在传统数据中心中,电力需要经过多次转换才能从输电网最终传输至服务器。这不仅导致效率损失,还增加了系统故障的风险点。
新系统大幅度减少了电力转换次数,从而将能量转换时的损失最小化。更重要的是,该系统采用了将备用电源位置设置在更靠近服务器机架的设计。这使得紧急电力供应路径缩短,从而提高了系统的可靠性。通过这一设计变更,成功将电力系统潜在故障点减少了整整20%。
排热系统也采用了创新的方法。过去通常通过使用大量电动风扇强制排热,而新系统则采用积极利用自然气压差的设计。这不仅大幅减少了风扇的使用数量,而且实现了高效的排热。这种方法不仅仅减少了风扇的电能消耗,还降低了系统复杂性,有助于提高系统的可维护性。
作为这些改进的巅峰,新开发的电力架架值得一提。通过这一创新设计,将在未来2年内使机架单位的电力密度提高6倍,随后再提高3倍。这不仅仅是个数字目标,更是为满足下一代AI工作负载所需求的巨大计算能力而制定的战略性铺垫。
AWS基础设施服务的副总裁Prasad Kalayanaraman表示"这些数据中心功能在提高能源效率和灵活适应新工作负载方面是重要的一步"。实际上,通过引入这一新系统,可以将每个站点的计算能力提高12%,并有望减少所需数据中心的总数。
减轻环境负荷的努力不仅仅局限于改善冷却系统。数据中心建设材料的革新也取得了进展,在混凝土制造过程中成功将碳排放量比行业平均降低了35%。此外,备用发电机采用可再生柴油,并成功将温室气体排放在生命周期内比传统化石燃料来源的柴油减少了90%。
随着人工智能热潮的全面展开,面对数据中心电力消耗急剧增长,AWS此举展示了非常根本性的解决方案。特别是液冷和空冷的混合式采用,可视为考虑效率和成本平衡的现实解决方案。
然而,需要谨慎的技术验证来应对每两年提高6倍,然后再提高3倍的急速电力密度提升计划。特别是要注意,由于高密度化可能带来局部的热量集中,管理将成为影响系统稳定性的重要挑战。
值得进一步关注的是,这些技术创新是为考虑到后期引入现有数据中心而设计的。这表明可持续性不仅仅是口号,而是作为实践设计理念纳入其中。
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。
更多信息
10
1