由於高質量數據吃緊以及昂貴的數據中心建造成本,AI大模型的升級速度正在放緩,可能反過來拖累行業整體和數據中心建設的進展;同時,馬斯克大舉發力數據中心建設可能提升其他AI公司的擴張難度。
本文作者:李笑寅
來源:硬AI
全球數據中心正在面臨放緩困境。
如火如荼的AI浪潮推升了數據中心的建設狂潮,但隨着大模型對算力的要求每日俱增,數據中心升級的腳步似乎要跟不上持續強勁的AI需求了。
知名科技媒體The Information近日報道稱,由於高質量數據吃緊以及昂貴的數據中心建造成本,AI大模型的升級速度正在放緩,可能反過來拖累行業整體和數據中心建設的進展。
與此同時,馬斯克正大舉發力數據中心建設,在「鯰魚效應」(指引入強者後,激發弱者變強)下,一場更高難度的大型數據中心競賽即將打響,數據中心的建設狂潮還能否延續?
「數據飢餓」限制大模型迭代速度
據OpenAI員工向The Information表示,GPT迭代放緩的原因之一是:可供大模型預訓練所需的高質量文本和其他數據正在不斷減少。
這些人士表示,在過去幾年中, LLMs使用來自網站、書籍和其他來源的公開文本和其他數據進行預訓練過程,而如今,這類數據幾乎已被「榨乾」。
據悉,在下一代旗艦模型「Orion」中,OpenAI雖然已經開始嘗試在訓練階段引入AI生成數據,但同時又面臨一個新問題,即Orion最終可能在某些方面與舊型號的大模型相似。
同時,數據中心昂貴的建造成本可能也難以支撐起迭代所需的龐大算力要求,OpenAI研究員Noam Brown在上個月的TEDAI會議上表示,開發更先進的模型在經濟上可能並不可行。
「我們真的要訓練花費數千億美元或數萬億美元的模型嗎?有時候,擴展(scaling laws)的範式也會崩潰。」
此外,由於大模型迭代升級對服務器集群規模的要求越來越高,所需的功率也呈倍數級提升,散熱問題正越來越成爲數據中心升級的一大阻礙。
馬斯克發力AI,OpenAI等擔心被「後來居上」
馬斯克爲xAI兌現「最大超算中心」的承諾的速度之快,已經向OpenAI等頭部競爭對手成功製造了焦慮。
在今年7月「GenAI Summit SF 2024」人工智能峯會上,馬斯克旗下的AI初創公司xAI宣佈,計劃在幾個月內建成一個約10萬H100芯片的數據中心,號稱是「世界上最強大的AI訓練集群」,旨在訓練更強大的AI模型。
同月,馬斯克社交平台「X」上宣佈,xAI公司已開始在「Supercluster」上進行訓練,該集群由10萬個液冷英偉達的H100 GPU組成,在單個遠程直接數據存取(RDMA)結構上運行。
馬斯克的豪賭,基於「縮放定律」(scaling laws):數據中心規模越大、訓練出來的大模型就越好。
據悉,「Supercluster」的集群規模是Meta等科技巨頭已有數據中心規模的數倍。對比來看,OpenAI訓練GPT4,需要用到25000塊A100 GPU,僅爲Supercluster的1/20。
並且,據英偉達方面向媒體透露,該數據中心僅用122天就建成,而根據其CEO黃仁勳的說法,這種這種規模的GPU集群通常需要三年的時間來規劃和設計,還額外需要一年的時間才能投入使用。
儘管xAI的人工智能工具仍遠遠落後於OpenAI,但他構建數據中心的速度引起了Sam Altman的警惕。據一位知情人士向媒體透露,馬斯克在X上官宣了Supercluster的建成後,Altman與微軟的基礎設施高管發生了爭執,擔心xAI的發展速度比微軟快。