ピンハネ发表了动态 · 20小时前

Meta 报告说，Llama 3 训练期间有一半的故障是由频繁的 NVIDIA H100 GPU 故障造成的

Meta 报告称，Llama 3 训练期间有一半的故障是由频繁的 NVIDIA H100 GPU 故障造成的 | XenoSpectrum

2024/7/30（部分摘录）

当 Meta 训练 Llama 3 大规模语言模型时，很明显，NVIDIA H100 GPU 经常出现故障。根据Meta最近发布的研究，在使用由16,384个NVIDIA H100 80GB GPU组成的集群的54天训练期内，意外组件故障的发生率平均为每3小时一次。这种惊人的故障频率中，有一半以上是由于 GPU 或其板载内存造成的。

GPU 很重要，但结果表明可靠性存在问题
Meta 研究小组对 Llama 3 405B 模型进行了为期 54 天的训练。在此期间，该集群共经历了 466 次作业中断。其中，47起是由于计划维护造成的，而其余的419起是由于意外故障造成的。如果你查看这些意外中断的详细情况，你会发现与 GPU 相关的问题是最大的因素。
具体而言，58.7% 的意外中断是由于 GPU 相关问题造成的。其中，30.1％是由各种GPU故障（包括NVLink故障）造成的，17.2％是由HBM3内存故障引起的。NVIDIA H100 GPU消耗的功率非常高，约为700W，考虑到它面临与之相关的热应力，这些故障的频率可能不足为奇。

同时，只有两次 CPU 故障，结果是 GPU 的漏洞尤为突出。这表明，尽管 GPU 在现代大规模 AI 训练中起着重要作用，但其可靠性存在问题。

很明显，不仅 GPU 故障，还有环境因素对训练性能产生了不容忽视的影响。由于白天的温度波动，GPU 吞吐量出现了 1-2% 的波动。人们认为这是因为 GPU 的动态电压/频率调整受到温度变化的影响。

此外，人们发现，成千上万个 GPU 的同步功耗波动给数据中心的电网带来了沉重的负荷。这些波动有时会达到数十兆瓦，达到电网的极限。这表明 Meta 需要为未来的人工智能训练确保足够的电力供应。

尽管失败频繁，但Meta团队还是成功地保持了超过90％的高有效训练时间。这是因为他们采用的多种策略行之有效。

首先，我们努力缩短作业启动时间和检查点创建时间。因此，可以最大限度地减少故障发生时的停机时间。接下来，开发了一种独特的诊断工具，可以快速识别和解决问题。

此外，PyTorch的NCCL飞行记录器特别用于诊断和解决与NCCLX相关的挂断和性能问题。该工具捕获了集体通信元数据和堆栈跟踪，并有助于快速解决问题。

我们还开发了一种专门的工具，用于识别会降低其他 GPU 处理速度的 “混乱 GPU”。因此，可以优先发现有问题的沟通并及时解决，从而保持整体培训效率。

Meta 的 16,384 个 GPU 规模的集群在 54 天内经历了 419 次故障（每 24 小时 7.76 次，或大约每 3 小时一次），这一事实对更大的 AI 训练集群的可靠性具有重要影响。

例如，由 xAi 拥有的 100,000 个 H100 GPU 组成的集群大约是 Meta 集群的 6 倍。假设故障率相似，xAI 集群中可能会发生更频繁的故障。这一预测表明，确保大规模人工智能训练的可靠性在未来将变得越来越重要。

Meta 的经验为大规模 AI 系统的运行带来了复杂的挑战。尽管经常发生故障，但仍能保持较高的有效训练时间，这一事实表明了主动故障缓解策略的重要性。同时，很明显，需要改进硬件和基础设施，例如提高硬件可靠性、开发更高效的冷却系统和构建更稳定的电力供应系统。这项研究的结果为大规模人工智能训练集群的可靠性提供了重要建议。例如，在由 xAI 拥有的 100,000 个 H100 GPU 组成的集群中，假设故障率相似，则有可能发生更频繁的故障。

随着人工智能模型及其训练集群规模的持续扩大，从 Meta 的经验中吸取的这些经验教训将成为整个 AI 行业极其重要的指南。展望未来，预计硬件制造商、数据中心设计师和人工智能研究人员将合作解决这些问题，这对于开发下一代人工智能系统至关重要。

资料来源
Meta: Llama 3 模特群
Tom's Hardware：在 lLaMA 3 训练期间，Nvidia H100 GPU 和 HBM3 内存出现故障会延迟一半的故障，Meta 的 16,384 个 GPU 训练集群每三小时出现一次故障

免责声明：社区由Moomoo Technologies Inc.提供，仅用于教育目的。更多信息

原文

登录发表评论

ピンハネ

フォローしてくださっても、私からフォローすることはありません😪 チャットもお断りしています😪

2562粉丝

2关注

2万来访

关注