個人中心
登出
中文繁體
返回
登入後諮詢在線客服
回到頂部

Meta 報告稱,Llama 3 訓練期間的一半故障是由頻繁的 NVIDIA H100 GPU 故障引起的

2022 年 4 月 7 日 30 日(部分摘錄)
當 Meta 正在訓練 Llama 3 大規模語言模型時,很明顯它正在經常遭受 NVIDIA H100 GPU 故障。根據 Meta 最近發表的研究,在 54 天的訓練期間,使用 16,384 個 NVIDIA H100 80GB GPU 組成的叢集中,平均每 3 小時發生一次意外的組件故障。這個令人驚訝的故障頻率中超過一半是由於 GPU 或其內建內存所致。
GPU 很重要,但結果表明可靠性問題
美塔研究團隊對拉瑪 3 405B 模型進行了 54 天的培訓。在此期間,叢集共遭遇 466 個工作中斷。其中,47 個是由於計劃維護而造成的,而剩餘的 419 個是因意外故障而造成的。如果您查看這些意外中斷的細節,您可以看到與 GPU 相關的問題是最大的因素。
具體來說,58.7% 的意外中斷是由於 GPU 相關的問題所致。其中,30.1% 是由於各種 GPU 故障(包括 NVLink 故障),17.2% 是由於 HBM3 內存故障。NVIDIA H100 GPU 消耗大約 700W 的極高功率,考慮到它暴露在與其相關的熱應力下,這些故障的頻率可能並不令人驚訝。
同時,只有 2 個 CPU 故障,結果是 GPU 的漏洞突出。這表明,雖然 GPU 在現代大規模 AI 培訓中起著重要作用,但它們的可靠性存在問題。

很明顯,不僅 GPU 故障,而且環境因素也對培訓性能的影響是無法忽略的。由於白天溫度波動,GPU 輸送量有 1-2% 的波動。這被認為是因為 GPU 的動態電壓/頻率縮放受溫度變化的影響。

此外,據發現,數千上萬 GPU 的同時耗電量的波動會對資料中心的電網造成巨大負載。這些波動有時達到數十兆瓦,達到電網的極限。這表明 Meta 需要為未來 AI 培訓確保足夠的電源供應。
儘管如此頻繁失,Meta 團隊成功維持 90% 以上的高效訓練時間。這是因為他們採用的多種策略有效。

首先,我們努力縮短工作啟動時間和檢查點創建時間。因此,發生故障時的停機時可以最小化。接下來,開發了一個獨特的診斷工具,以便快速識別和解決問題。

此外,PyTorch 的 NCCL 飛行記錄器用於診斷和解決特別與 NCCLX 相關的懸掛和性能問題。此工具擷取集體通訊中繼資料和堆疊追蹤,並有助於快速解決問題。
我們還開發了一個專門的工具,用於識別降低其他 GPU 的處理速度的「流失 GPU」。因此,可以優先檢測和及時解決問題的溝通,從而保持整體培訓效率。

Meta 的 16,384 GPU 規模叢集在 54 天內經歷 419 次故障(每 24 小時 7.76 次,或大約每 3 小時一次)對較大的 AI 培訓叢集的可靠性產生了重要影響。

例如,由 Xai 擁有的 100,000 個 H100 GPU 組成的叢集,比 Meta 的叢集大約 6 倍。假設失敗率相似,XAI 叢集中可能會發生更頻繁的故障。這項預測表明,確保大規模 AI 培訓中的可靠性將在未來變得越來越重要。

Meta 的經驗在大型 AI 系統的運營方面帶來了複雜的挑戰。儘管經常出現故障,但仍保持高效的訓練時間,表明主動故障緩解策略的重要性。同時,顯然,硬件和基礎設施都需要改進,例如提高硬件可靠性,開發更高效的冷卻系統,以及構建更穩定的電源供應系統。本研究的結果提供了對大規模 AI 培訓叢集的可靠性的重要建議。例如,在由 Xai 擁有的 100,000 個 H100 GPU 組成的叢集中,假設故障率相似,則可能會發生更頻繁的故障。
隨著 AI 模型及其培訓叢集的規模不斷擴大,從 Meta 的經驗中獲得的這些教訓將成為整個人工智能行業的非常重要指南。未來,預計硬件製造商,數據中心設計師和 AI 研究人員將合作解決這些問題,這將對下一代 AI 系統的開發至關重要。

來源
梅塔:喇嘛 3 群模特
湯姆的硬體:錯誤的 Nvidia H100 GPU 和 HBM3 記憶體延遲了 LLama 3 訓練期間的一半故障 —— Meta 的 16,384 GPU 訓練叢集每三小時發生一次故障
免責聲明:社區由Moomoo Technologies Inc.提供,僅用於教育目的。 更多信息
5
1
+0
原文
舉報
瀏覽 7429
評論
登錄發表評論
    フォローしてくださっても、私からフォローすることはありません😪 チャットもお断りしています😪
    2562粉絲
    2關注
    2萬來訪
    關注