ピンハネ發表了動態 · 20小時前

Meta 報告稱，Llama 3 訓練期間的一半故障是由頻繁的 NVIDIA H100 GPU 故障引起的

Meta 報告稱，Llama 3 訓練期間的一半故障是由經常的 NVIDIA H100 GPU 故障引起的 | XenoSpectrum

2022 年 4 月 7 日 30 日（部分摘錄）

當 Meta 正在訓練 Llama 3 大規模語言模型時，很明顯它正在經常遭受 NVIDIA H100 GPU 故障。根據 Meta 最近發表的研究，在 54 天的訓練期間，使用 16,384 個 NVIDIA H100 80GB GPU 組成的叢集中，平均每 3 小時發生一次意外的組件故障。這個令人驚訝的故障頻率中超過一半是由於 GPU 或其內建內存所致。

GPU 很重要，但結果表明可靠性問題
美塔研究團隊對拉瑪 3 405B 模型進行了 54 天的培訓。在此期間，叢集共遭遇 466 個工作中斷。其中，47 個是由於計劃維護而造成的，而剩餘的 419 個是因意外故障而造成的。如果您查看這些意外中斷的細節，您可以看到與 GPU 相關的問題是最大的因素。
具體來說，58.7% 的意外中斷是由於 GPU 相關的問題所致。其中，30.1％是由於各種 GPU 故障（包括 NVLink 故障），17.2％是由於 HBM3 內存故障。NVIDIA H100 GPU 消耗大約 700W 的極高功率，考慮到它暴露在與其相關的熱應力下，這些故障的頻率可能並不令人驚訝。

同時，只有 2 個 CPU 故障，結果是 GPU 的漏洞突出。這表明，雖然 GPU 在現代大規模 AI 培訓中起著重要作用，但它們的可靠性存在問題。

很明顯，不僅 GPU 故障，而且環境因素也對培訓性能的影響是無法忽略的。由於白天溫度波動，GPU 輸送量有 1-2％的波動。這被認為是因為 GPU 的動態電壓/頻率縮放受溫度變化的影響。

此外，據發現，數千上萬 GPU 的同時耗電量的波動會對資料中心的電網造成巨大負載。這些波動有時達到數十兆瓦，達到電網的極限。這表明 Meta 需要為未來 AI 培訓確保足夠的電源供應。

儘管如此頻繁失，Meta 團隊成功維持 90% 以上的高效訓練時間。這是因為他們採用的多種策略有效。

首先，我們努力縮短工作啟動時間和檢查點創建時間。因此，發生故障時的停機時可以最小化。接下來，開發了一個獨特的診斷工具，以便快速識別和解決問題。

此外，PyTorch 的 NCCL 飛行記錄器用於診斷和解決特別與 NCCLX 相關的懸掛和性能問題。此工具擷取集體通訊中繼資料和堆疊追蹤，並有助於快速解決問題。

我們還開發了一個專門的工具，用於識別降低其他 GPU 的處理速度的「流失 GPU」。因此，可以優先檢測和及時解決問題的溝通，從而保持整體培訓效率。

Meta 的 16,384 GPU 規模叢集在 54 天內經歷 419 次故障（每 24 小時 7.76 次，或大約每 3 小時一次）對較大的 AI 培訓叢集的可靠性產生了重要影響。

例如，由 Xai 擁有的 100,000 個 H100 GPU 組成的叢集，比 Meta 的叢集大約 6 倍。假設失敗率相似，XAI 叢集中可能會發生更頻繁的故障。這項預測表明，確保大規模 AI 培訓中的可靠性將在未來變得越來越重要。

Meta 的經驗在大型 AI 系統的運營方面帶來了複雜的挑戰。儘管經常出現故障，但仍保持高效的訓練時間，表明主動故障緩解策略的重要性。同時，顯然，硬件和基礎設施都需要改進，例如提高硬件可靠性，開發更高效的冷卻系統，以及構建更穩定的電源供應系統。本研究的結果提供了對大規模 AI 培訓叢集的可靠性的重要建議。例如，在由 Xai 擁有的 100,000 個 H100 GPU 組成的叢集中，假設故障率相似，則可能會發生更頻繁的故障。

隨著 AI 模型及其培訓叢集的規模不斷擴大，從 Meta 的經驗中獲得的這些教訓將成為整個人工智能行業的非常重要指南。未來，預計硬件製造商，數據中心設計師和 AI 研究人員將合作解決這些問題，這將對下一代 AI 系統的開發至關重要。

來源
梅塔：喇嘛 3 群模特
湯姆的硬體：錯誤的 Nvidia H100 GPU 和 HBM3 記憶體延遲了 LLama 3 訓練期間的一半故障 —— Meta 的 16,384 GPU 訓練叢集每三小時發生一次故障

免責聲明：社區由Moomoo Technologies Inc.提供，僅用於教育目的。更多信息

原文

舉報

評論

登錄發表評論

ピンハネ

フォローしてくださっても、私からフォローすることはありません😪 チャットもお断りしています😪

2562粉絲

2關注

2萬來訪

關注