個人中心
登出
中文繁體
返回
登入後諮詢在線客服
回到頂部

AMD 推出 1.2 萬 GPU AI 超級計算機與 Nvidia 競爭,比世界最快的超級計算機多 30 倍的 GPU。

avatar
Mr Long Term 發表了文章 · 06/26 19:09
AMD 推出 1.2 萬 GPU AI 超級計算機與 Nvidia 競爭,比世界最快的超級計算機多 30 倍的 GPU。
數據中心對更多計算能力的需求正在以驚人的速度增長,AMD 透露,它對建立包含超過 1.2 萬 GPU 或更多的單一 AI 叢集進行了嚴重的查詢。

AMD 承認來自《下一個平台》與 AMD 執行長兼資料中心解決方案集團總經理福雷斯特諾羅德(Forrest Norrod)進行了一次長時間討論,就 AMD 在數據中心的未來進行了。最令人開眼的回應之一是關於某人正在認真考慮的最大的 AI 培訓叢集。

當被問到該公司是否對超過 1.2 萬 GPU 的叢集進行查詢時,福雷斯特回答說,評估幾乎是準確的。
1.2 萬 GPU 是一個愚蠢的數字(正如 Forest 在採訪後面中引述的那樣令人驚訝)。AI 訓練叢集通常是由數個或更少的伺服器機架之間透過高速互連連接連接的數千個 GPU 建構。相比之下,創建一個具有 1.2 萬 GPU 的 AI 叢集似乎幾乎不可能。

我們只能想像某人需要克服哪些陷阱才能嘗試構建一個擁有超過一百萬 GPU 的 AI 叢集,但是延遲、功率和硬件故障的不可避免是立即想到的幾個因素。

AI 工作負載對延遲非常敏感,特別是尾延遲和異常值,其中某些數據傳輸的時間比其他工作負載更長,並會中斷工作負載。此外,當今的超級計算機必須減輕 GPU 或其他硬件故障,這些故障在其規模上每隔幾小時發生一次。當擴展到當今最大已知叢集的 30 倍時,這些問題將變得更明顯。這就是在我們談到這樣大膽的目標所需的核電廠大小的電力供應之前。

即使是世界上最強大的超級計算機也無法擴展到數百萬 GPU。例如,目前運行最快的超級計算機 Frontier「僅」擁有 37,888 個 GPU。

數百萬 GPU 叢集的目標表明正在塑造 2020 年代的 AI 競爭的嚴重性。如果它在可能性範圍內,如果這意味著更大的 AI 處理能力,則有人會嘗試做到這一點。Forest 並沒說哪個組織正在考慮建立這種規模的系統,但是提到「非常清醒的人」正在考慮在 AI 培訓叢集上花數十到數億美元(這就是為什麼都在考慮數百萬 GPU 叢集的原因)。
免責聲明:社區由Moomoo Technologies Inc.提供,僅用於教育目的。 更多信息
6
+0
原文
舉報
瀏覽 2.4萬
評論
登錄發表評論