网站推广三步走:十秒注册 -> 提交网站 -> 快速审核 -> 带来无限流量和外链 -> 点入及点出一次即可排名第一位

当前位置:265分类目录 » 站长资讯 » 科技资讯 » 文章详细

Meta 训练 Llama 3 遭遇频繁故障:16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

来源:网络 浏览:34次 时间:2024-07-30

简介:近日消息,Meta 发布的一份研究报告显示,其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,Meta 团队还是保持了 90%

近日消息,Meta 发布的一份研究报告显示,其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

Meta 训练 Llama 3 遭遇频繁故障:16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,Meta 团队还是保持了 90% 以上的有效训练时间。

在为期 54 天的预训练中,共出现了 466 次工作中断,其中 47 次是计划中断,419 次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。 GPU 问题是导致故障的主要原因,占意外中断的 58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。

在 419 个意外中断中,148 个(30.1%)是由各种 GPU 故障(包括 NVLink 故障)引起的,而 72 个(17.2%)是由 GPU 的 HBM3 内存故障引起的。有趣的是,54 天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。

为提高效率,Meta 团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta 还关注到了环境因素的影响,如午间温度波动对 GPU 性能的轻微影响,以及巨量 GPU 同时运行对数据中心电网的巨大压力。

然而,随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。以 xAI 计划中的 10 万块 H100 显卡集群为例,故障率可能会成倍增长,给未来的 AI 训练带来更大的挑战。



推荐站点

  • 中国政府网中国政府网

    中华人民共和国中央人民政府门户网站

    www.gov.cn
  • 纵横小说网纵横小说网

    纵横中文网,最热门的免费小说网站,提供玄幻小说、网游小说、言情小说、穿越小说、都市小说等免费小说在线阅读与下载。大神作品齐聚纵横,最新章节每日更新。

    www.zongheng.com
  • 360影视360影视

    360影视-更新更全更受欢迎的影视网站-在线观看

    www.360kan.com
  • 看DVD电影网看DVD电影网

    看DVD电影网是免费提供2012最新快播电影在线观看,qvod电影,搞笑电影下载等。我们一直努力成为最好的免费电影网站!

    www.kandvd.cc
  • 9070电影网9070电影网

    9070电影网是老牌的免费电影站,提供许多2012最新电影,好看的电视剧和经典电影大全,网站分为在线观看和电影下载.

    www.9070.net
  • 第一放映室第一放映室

    第一放映室(www.2kk.cc,乐乐影院,奇特电影网)提供最新电视剧电影,好看的电视剧电影、欧美大片、香港TVB电视剧、韩国电视剧、台剧、泰剧、日剧、美剧、综艺等。

    www.2kk.cc