个人中心
登出
中文简体
返回
登录后咨询在线客服
回到顶部

AMD 谈判 120 万台 GPU AI 超级计算机将与 Nvidia 竞争,这是世界上最快的超级计算机多 30 倍的 GPU。

avatar
Mr Long Term 发表了文章 · 06/26 19:09
AMD 谈判 120 万台 GPU AI 超级计算机将与 Nvidia 竞争,这是世界上最快的超级计算机多 30 倍的 GPU。
数据中心对更多计算能力的需求正以惊人的速度增长,AMD透露,它已认真考虑构建包含高达120万个或更多GPU的单个AI集群。

AMD 的承认源自《下一个平台》与 AMD 执行副总裁兼数据中心解决方案事业部总经理 Forrest Norrod 就数据中心的 AMD 未来进行了长时间的讨论。最令人大开眼界的回应之一是有人正在认真考虑的最大的人工智能训练集群。

当被问及该公司是否对大达120万个GPU的集群进行了调查时,福雷斯特回答说,评估几乎是正确的。
120万个GPU是一个荒谬的数字(正如Forest稍后在采访中打趣的那样,令人难以置信)。人工智能训练集群通常使用数千个 GPU 构建,这些图形处理器通过高速互连连接在多个或更少的服务器机架上。相比之下,创建拥有 120 万个 GPU 的人工智能集群似乎几乎是不可能的。

我们只能想象有人需要克服哪些陷阱才能尝试构建一个拥有超过一百万个 GPU 的 AI 集群,但是延迟、功率和硬件故障的不可避免性是立刻浮现在脑海中的几个因素。

AI 工作负载对延迟极为敏感,尤其是尾部延迟和异常值,其中某些数据传输的时间比其他数据传输要长得多,会干扰工作负载。此外,当今的超级计算机必须缓解GPU或其他硬件故障,就其规模而言,这些故障每隔几个小时就会发生一次。当扩展到当今最大的已知集群规模的30倍时,这些问题将变得更加明显。那是在我们触及实现如此大胆的目标所需的核电厂规模的电力输送之前。

即使是世界上最强大的超级计算机也无法扩展到数百万个 GPU。例如,目前运行速度最快的超级计算机Frontier “只有” 有37,888个显卡。

百万个 GPU 集群的目标说明了塑造 2020 年代的人工智能竞赛的严峻性。如果在可能的范围内,如果这意味着更强的人工智能处理能力,就会有人尝试去做。Forest 没有透露哪个组织正在考虑构建如此规模的系统,但确实提到 “非常清醒的人” 正在考虑在人工智能训练集群上花费数百亿至数千亿美元(这就是为什么要考虑数百万个 GPU 集群的原因)。
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。 更多信息
6
+0
原文
举报
浏览 2.5万
评论
登录发表评论