AWS爲了迎接人工智能時代的數據中心革新,通過液冷系統來提高電力效率46%。
AWS宣佈了針對下一代AI時代的大規模數據中心改革。通過引入液冷系統,實現最高46%的冷卻效率提升,加強對AI處理所必需的高密度服務器的支持。同時,通過簡化電力供應系統,大幅改善穩定性和效率。這些創新將使數據中心的能源效率最多提高4.1倍。
AWS的新冷卻系統是爲了滿足下一代AI工作負載而進行的雄心勃勃的技術革新。該系統的核心是用於直接接觸自家開發的Trainium2芯片和NVIDIA的GB200 NVL72等高性能AI處理器以進行冷卻的“芯片直接液冷”技術。該技術使得即使在傳統的空冷系統下難以支持的高密度計算環境中,也能實現有效的熱控制。
值得關注的是,這個新系統被設計成可以後期添加到現有的數據中心中。這意味着AWS可以逐步升級其現有基礎設施,最大程度地減少大規模設備更新帶來的停機時間和成本。
此外,AWS在開發液冷系統時與主要芯片製造商緊密合作。NVIDIA的副總裁Ian Buck強調了這種合作關係的重要性,稱“能夠有效冷卻AI基礎設施同時最大限度地降低能源消耗”等。
系統的顯着技術特點在於多模式設計,可以靈活地組合液冷和空冷。對於執行高性能AI處理的服務器,採用液冷,而對於網絡設備和存儲服務器等發熱相對較少的設備,則採用傳統的空冷。這樣一來,可以根據各設備特性選擇最佳的冷卻方式。
這種新冷卻系統的效果已經得到實證,確認了可以將冷卻期間所需的機械能消耗最大降低46%。值得注意的是,這種大幅提高效率並不伴隨着用水量增加,這在環境負荷方面也是重要的成就。
AWS引入的新電力供應系統是一項野心勃勃的改革,旨在徹底檢討數據中心的可靠性和效率性。這項改革的核心在於儘量簡化電力從輸電網到服務器的傳輸路徑。在傳統的數據中心中,電力需要經過多次轉換才能從輸電網輸送到服務器,這不僅會導致能效損失,還會增加系統故障風險點。
新系統大大減少了電力轉換次數,將轉換時的能量損耗最小化。更重要的是,採用了將備用電源放置在服務器機架附近的設計。這樣一來,緊急情況下的電力供應路徑也得以縮短,系統的可靠性得到提升。通過這一設計更改,成功地將電氣系統潛在故障點減少了整整20%。
散熱系統也引入了創新的方法。傳統上,使用大量電動風扇強制散熱,而新系統則採用積極利用自然氣壓差的設計。這樣一來,在大幅減少風扇使用數量的同時,實現了高效的散熱。這種方法不僅降低了風扇的耗電量,還減少了系統的複雜性,有助於提高可維護性。
作爲這些改進的集大成,新開發的電力架值得特別一提。通過這種創新設計,可以將每個機架的電力密度在今後2年內提高6倍,在此之後進一步提高3倍。這不僅是一個數字目標,還是爲適應下一代AI工作負載需求的巨大計算能力而採取的戰略性舉措。
AWS基礎設施服務的副總裁Prasad Kalayanaraman表示:“這些數據中心功能將成爲提高能源效率和靈活應對新工作負載的重要一步。”實際上,通過引入這一新系統,每個站點的計算能力可以提高12%,預計可以減少所需數據中心的總數。
環境負荷減少不僅僅涉及冷卻系統的改進。數據中心的建築材料也出現創新,成功將混凝土製造過程中的碳排放量比行業平均水平減少35%。此外,備用發電機採用可再生柴油,與傳統化石燃料來源的柴油相比,在整個生命週期內減少溫室氣體排放量達90%。
隨着人工智能熱潮的加劇,數據中心的電力消耗急劇增加,AWS這次的舉措顯示出非常根本性的解決方案。特別是液冷和空冷的混合方式的採用,可以說是一種考慮效率和成本平衡的現實解決方案。
然而,要實現電力密度猛增6倍,隨後再增加3倍的計劃,需要進行謹慎的技術驗證。特別是隨着高密度化帶來的局部熱集中管理,可能成爲左右系統穩定性的重要挑戰。
更值得關注的是,這些技術創新考慮到了對現有數據中心的後期引入設計。這顯示出,對可持續性的考慮不僅僅是口號,而是作爲實踐設計理念融入其中。
免責聲明:社區由Moomoo Technologies Inc.提供,僅用於教育目的。
更多信息10 1