AI大モデルのアップグレードが鈍化し、マスクの「鯰効果」、OpenAIの不安、データセンターの狂潮は続くのでしょうか。

wallstreetcn · 2024/11/14 21:53

由于高质量数据吃紧以及昂贵的数据中心建造成本，AI大模型的升级速度正在放缓，可能反过来拖累行业整体和数据中心建设的进展；同时，马斯克大举发力数据中心建设可能提升其他AI公司的扩张难度。

本文作者：李笑寅

来源：硬AI

全球数据中心正在面临放缓困境。

如火如荼的AI浪潮推升了数据中心的建设狂潮，但随着大模型对算力的要求每日俱增，数据中心升级的脚步似乎要跟不上持续强劲的AI需求了。

知名科技媒体The Information近日报道称，由于高质量数据吃紧以及昂贵的数据中心建造成本，AI大模型的升级速度正在放缓，可能反过来拖累行业整体和数据中心建设的进展。

与此同时，马斯克正大举发力数据中心建设，在“鲶鱼效应”（指引入强者后，激发弱者变强）下，一场更高难度的大型数据中心竞赛即将打响，数据中心的建设狂潮还能否延续？

“数据饥饿”限制大模型迭代速度

据OpenAI员工向The Information表示，GPT迭代放缓的原因之一是：可供大模型预训练所需的高质量文本和其他数据正在不断减少。

这些人士表示，在过去几年中， LLMs使用来自网站、书籍和其他来源的公开文本和其他数据进行预训练过程，而如今，这类数据几乎已被“榨干”。

据悉，在下一代旗舰模型“Orion”中，OpenAI虽然已经开始尝试在训练阶段引入AI生成数据，但同时又面临一个新问题，即Orion最终可能在某些方面与旧型号的大模型相似。

同时，数据中心昂贵的建造成本可能也难以支撑起迭代所需的庞大算力要求，OpenAI研究员Noam Brown在上个月的TEDAI会议上表示，开发更先进的模型在经济上可能并不可行。

“我们真的要训练花费数千亿美元或数万亿美元的模型吗？有时候，扩展（scaling laws）的范式也会崩溃。”

此外，由于大模型迭代升级对服务器集群规模的要求越来越高，所需的功率也呈倍数级提升，散热问题正越来越成为数据中心升级的一大阻碍。

马斯克发力AI，OpenAI等担心被“后来居上”

马斯克为xAI兑现“最大超算中心”的承诺的速度之快，已经向OpenAI等头部竞争对手成功制造了焦虑。

在今年7月“GenAI Summit SF 2024”人工智能峰会上，马斯克旗下的AI初创公司xAI宣布，计划在几个月内建成一个约10万H100芯片的数据中心，号称是“世界上最强大的AI训练集群”，旨在训练更强大的AI模型。

同月，马斯克社交平台“X”上宣布，xAI公司已开始在“Supercluster”上进行训练，该集群由10万个液冷英伟达的H100 GPU组成，在单个远程直接数据存取（RDMA）结构上运行。

马斯克的豪赌，基于“缩放定律”（scaling laws）：数据中心规模越大、训练出来的大模型就越好。

据悉，“Supercluster”的集群规模是Meta等科技巨头已有数据中心规模的数倍。对比来看，OpenAI训练GPT4，需要用到25000块A100 GPU，仅为Supercluster的1/20。

并且，据英伟达方面向媒体透露，该数据中心仅用122天就建成，而根据其CEO黄仁勋的说法，这种这种规模的GPU集群通常需要三年的时间来规划和设计，还额外需要一年的时间才能投入使用。

尽管xAI的人工智能工具仍远远落后于OpenAI，但他构建数据中心的速度引起了Sam Altman的警惕。据一位知情人士向媒体透露，马斯克在X上官宣了Supercluster的建成后，Altman与微软的基础设施高管发生了争执，担心xAI的发展速度比微软快。

高品質なデータが不足しており、データセンターの建設コストが高いため、AI大モデルのアップグレード速度が遅くなっており、これが業種全体やデータセンター建設の進展を妨げる可能性があります。一方で、マスクがデータセンター建設に大きく取り組んでいるため、その他のAI企業の拡張が難しくなるかもしれません。

本文作者：李笑寅

出典：ハードAI

グローバルなデータセンターは、停滞の危機に直面しています。

盛り上がりを見せるAI波がデータセンターの建設ブームを引き起こしていますが、大モデルの算力に対する要求が日々増加する中で、データセンターのアップグレードのペースが持続的に強いAI需要に追いつかないようです。

著名なテクノロジーメディアThe Informationは最近、高品質なデータが不足しており、データセンターの建設コストが高いため、AI大モデルのアップグレード速度が遅くなっており、これが業種全体やデータセンター建設の進展を妨げる可能性があると報じました。

同時に、マスクはデータセンターの建設に大きく取り組んでおり、「鯰効果」（強者の参入によって弱者が強化されること）により、より高難度の大型データセンター競争が始まろうとしています。データセンターの建設ブームは果たして続くのでしょうか。

「データ飢餓」が大モデルのイテレーション速度を制限しています。

OpenAIの社員がThe Informationに伝えたところによれば、GPTのイテレーションが遅くなっている理由の1つは、大規模モデルの事前学習に必要な高品質なテキストやその他のデータが徐々に減少しているためです。

これらの関係者によれば、過去数年間、LLMはウェブサイトや書籍、その他の出所から公開テキストやその他のデータを使用して事前学習を行ってきましたが、現在ではこのようなデータはほぼ「搾り取られて」しまっています。

次世代のフラッグシップモデル「オリオン」では、OpenAIはトレーニング段階でAI生成データの導入を試み始めていますが、同時にオリオンは最終的に古いモデルの大規模モデルといくつかの点で類似する可能性があるという新たな問題に直面しています。

また、データセンターの高額な建設コストは、イテレーションに必要な膨大な計算能力の要求を支えるのが難しいかもしれません。OpenAIの研究者ノアム・ブラウンは先月のTEDAI会議で、より高度なモデルの開発は経済的に実現不可能かもしれないと述べました。

「本当に数千億ドルまたは数兆ドルのモデルを訓練する必要があるのでしょうか？時には、拡張（スケーリング法則）のパラダイムが崩壊することもあります。」

さらに、大モデルのイテレーションアップグレードがサーバークラスターの規模に対する要求を高めているため、必要な電力も指数的に増加し、熱問題がデータセンターのアップグレードにとって大きな障害となっています。

マスク氏がAIに力を入れ、OpenAIなどが「後から来た者に追い抜かれる」ことを懸念しています。

マスク氏がxAIで「最大のスーパーコンピュータセンター」の約束を果たす速さは、OpenAIなどの大手競合に不安をもたらしています。

今年7月に開催された「GenAI Summit SF 2024」人工知能サミットで、マスクのAIスタートアップxAIは、数ヶ月以内に約10万H100チップのデータセンターを建設する計画を発表し、「世界で最も強力なAIトレーニングクラスター」と主張しました。この目的は、より強力なAIモデルをトレーニングすることです。

同月、マスクのSNSプラットフォーム「X」で、xAI社は「Supercluster」でのトレーニングを開始したと発表しました。このクラスターは、10万台の液冷エヌビディアのH100 GPUで構成されており、単一のリモート直接データアクセス（RDMA）構造上で実行されています。

マスクの賭けは「スケーリング法則」に基づいています：データセンターの規模が大きくなるほど、トレーニングされた大きなモデルが良くなるというものです。

「Supercluster」のクラスター規模は、Metaなどのテクノロジー大手が持つ既存のデータセンターの数倍に及ぶとされています。比較すると、OpenAIがGPT4をトレーニングする際、25000枚のA100 GPUを使用し、これはSuperclusterの1/20に過ぎません。

さらに、エヌビディア側からメディアに明かされた情報によれば、このデータセンターはわずか122日で建設されたとのことです。また、同社のCEOである黄仁勲の話によれば、この規模のGPUクラスターは通常、計画と設計に3年を要し、さらに1年の時間が必要で、稼働を開始することになります。

xAIの人工知能ツールはOpenAIにはまだ遠く及びませんが、データセンターの構築速度はサム・オルトマンの警戒を引き起こしました。ある情報筋がメディアに明かしたところによれば、マスクがXでSuperclusterの完成を発表した後、オルトマンはマイクロソフトのインフラストラクチャ責任者と対立し、xAIの発展速度がマイクロソフトを上回ることを懸念していたとのことです。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。更に詳しい情報

AI大模型升级放缓、马斯克“鲶鱼效应”、OpenAI的焦虑，数据中心狂潮会继续吗？

AI大モデルのアップグレードが鈍化し、マスクの「鯰効果」、OpenAIの不安、データセンターの狂潮は続くのでしょうか。

“数据饥饿”限制大模型迭代速度

马斯克发力AI，OpenAI等担心被“后来居上”

「データ飢餓」が大モデルのイテレーション速度を制限しています。

マスク氏がAIに力を入れ、OpenAIなどが「後から来た者に追い抜かれる」ことを懸念しています。

リスク免責事項

免責事項