个人中心
登出
中文简体
返回
登录后咨询在线客服
回到顶部

Meta 报告称 H100 每 3 小时崩溃一次

$英伟达(NVDA.US)$当 Meta 正在为 Llama 3 训练大规模语言模型时,很明显它经常出现 H100 GPU 故障。在使用 16,384 个 H100 80GB GPU 进行训练期间,意外组件故障平均每 3 小时发生一次。一半以上的惊人故障频率是由于 GPU 或内存造成的。
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。 更多信息
5
2
3
+0
2
原文
举报
浏览 1.3万
评论
登录发表评论
61粉丝
1关注
100来访
关注