ログアウト
donwloadimg

アプリをダウンロード

ログイン後利用可能
トップに戻る

Meta,H100が3時間に1回故障してると報告

$エヌビディア(NVDA.US)$MetaがLlama 3の大規模言語モデルのトレーニングを行う中で、H100 GPUの頻繁な故障に悩まされていたことが明らかに。16,384基のH100 80GB GPUでトレーニング中、平均3時間に1回の割合で予期せぬコンポーネント故障が発生していた。驚くべき頻度の故障の半数以上がGPUまたはメモリに起因。
免責事項:このコミュニティは、Moomoo Technologies Inc.が教育目的でのみ提供するものです。 さらに詳しい情報
5
2
3
+0
2
翻訳
報告
13K 回閲覧
コメント
サインインコメントをする
61フォロワー
1フォロー中
100訪問者
フォロー