ログアウト
donwloadimg

アプリをダウンロード

ログイン後利用可能
トップに戻る

AMDはNvidiaと競合するために、120万枚のGPUを搭載したAIスパコンの構築に向けて、世界最速のスパコンよりも30倍多い量を保有したいと考えています。

avatar
Mr Long Term コラムを発表しました · 06/26 19:09
AMDはNvidiaと競合するために、120万枚のGPUを搭載したAIスパコンの構築に向けて、世界最速のスパコンよりも30倍多い量を保有したいと考えています。
データセンターにおけるコンピューティングパワーの需要は、驚異的なペースで増大しており、AMDは、膨大な120万枚以上のGPUを搭載したAIクラスターを構築するための真剣な問い合わせを受けていることを明らかにしました。

AMDの認識は、The Next Platformが、AMDのデータセンター・ソリューション・グループのEVP兼GMのForrest Norrod氏との長期にわたる議論から明らかになりました。今後のAMDのデータセンターにおける戦略についての議論において、最も目を引くものの1つは、ある誰かが真剣に考慮している最大のAIトレーニングクラスターについてのものでした。

120万枚のGPUなどの規模のクラスターについて問い合わせがあったかどうか尋ねられたとき、Forrest氏は、その評価は非常に妥当であると答えました。
120万枚のGPUという数字は、あまりにも妄想的である(Forestは後にインタビューで厳しく言及しています)。AIトレーニングクラスターは、高速のインターコネクトを介して接続された数千のGPUを搭載した複数のサーバーラック以下で構築されることが多いです。それに対して、120万枚のGPUを搭載したAIクラスターを作成することは、事実上不可能に近いと言えます。

100万枚以上のGPUを搭載したAIクラスターを構築しようとする場合、レイテンシ、電力、そしてハードウェアの故障の不可避性などを想像する必要があります。

AIワークロードは、特にテールレイテンシとアウトライヤーに非常に敏感であり、特定のデータ転送が他のデータ転送よりもずっと長くかかり、ワークロードを妨げることがあります。さらに、今日のスパコンでは、スケールにあわせて何時間かに一度起こるGPUなどのハードウェアの故障を修復する必要があるため、問題が大幅に悪化することになります。そして、それは、原子力発電基地のような規模で必要な電力の供給について触れる前に考える必要があります。

現在もっともパワフルなスパコンであるFrontierも、数万枚のGPUを持つにすぎません。世界中に存在するスパコンの中でも、最も高速なオペレーション用スパコンも、今のところ37,888枚のGPUを搭載しています。

100万枚のGPUを持つクラスターを目指すことは、AI競争を画定する重要なことです。それが可能であれば、より高いAI処理能力を持つことができるために、誰かが試みるでしょう。Forestは、このような規模のシステムの建設を検討している組織を明らかにはしていませんが、AIトレーニングクラスターに数千億ドルから数兆ドルを投資することを真剣に検討している「非常に真面目な人たち」がいると述べました(数百万枚以上のGPUで構成されるクラスターが検討されている理由の1つです)。
免責事項:このコミュニティは、Moomoo Technologies Inc.が教育目的でのみ提供するものです。 さらに詳しい情報
6
+0
原文を見る
報告
24K 回閲覧
コメント
サインインコメントをする