浜っコ
が銘柄にコメントしました · 2024/07/30 04:30
Meta,H100が3時間に1回故障してると報告
$エヌビディア (NVDA.US)$MetaがLlama 3の大規模言語モデルのトレーニングを行う中で、H100 GPUの頻繁な故障に悩まされていたことが明らかに。16,384基のH100 80GB GPUでトレーニング中、平均3時間に1回の割合で予期せぬコンポーネント故障が発生していた。驚くべき頻度の故障の半数以上がGPUまたはメモリに起因。
免責事項:このコミュニティは、Moomoo Technologies Inc.が教育目的でのみ提供するものです。
さらに詳しい情報
ジェンスノファン : なので、Blackwellを買うしかないのです!
shuan : こう切り抜くと元の記事で伝えてるニュアンスと少し印象違いますね
MetaはLlama 3トレーニング中の障害の半数がNVIDIA H100 GPUの頻繁な故障が原因と報告している | XenoSpectrum