文 | 適道
2025年,有多少人想看英偉達樓塌了?
醒醒,這不太現實。
不過,2025年的AI算力市場或將迎來轉變。
一方面,行業重點將從「訓練模型」轉向「模型推理」,意味着對推理基礎設施的需求呈現上升趨勢。例如,無論是OpenAI的o1和o3模型,還是Google的Gemini 2.0 Flash Thinking,均以更高強度的推理策略來提升訓練後結果。
另一方面,訓練好的大模型需要通過AI推理才能落地到各類場景中,隨着千行百業的深入採用,AI工作負載格局將發生轉變。例如,Open AI創建Sora代表着AI訓練,而用戶讓Sora生成一段視頻則代表着一個推理工作負載。
換句話說,大規模訓練工作負載是「研發階段」,推理工作負載是「商業化階段」,你想在AI領域賺錢,就要擴大推理工作負載。
巴克萊研報顯示:目前,AI推理計算需求將快速提升,預計其將佔通用人工智能總計算需求的70%以上,推理計算的需求甚至可以超過訓練計算需求,達到後者的4.5倍。
2025年,這些演變將爲自身「推理」過硬的「小」芯片公司提供發育空間。
這不,別人趕着新年送祝福,而Groq、SambaNova、Positron AI等專注於推理的初創公司則是向霸主英偉達紛紛亮出了虎牙。
一次講透推理芯片&訓練芯片
如果我們將AI訓練比作 讓模型「考駕照」,那麼推理就是讓模型「上路」。
訓練階段,你要請「教練」(優化算法)「指導」(反向傳播和參數調整)模型;推理階段,「駕駛員」(模型)要基於自己學到的知識技能,靈活應對實際路況。因此,推理階段只涉及前向傳播,通常比訓練階段更高效。
對應到芯片,訓練芯片具備更高的計算能力,旨在支持訓練過程中的大量計算和數據處理;推理芯片通常靠較少的計算能力完成工作。
問題一:爲什麼不用傳統CPU進行推理?
答:牛也能當交通工具,但速度太慢。
問題二:爲什麼不繼續用GPU做推理任務?
答:直升機也是通勤工具,但成本太高,而且你還得找停機坪。
雖然GPU非常適合實現神經網絡的訓練工作,但它在延遲、功耗等方面表現不算最佳,留給競爭對手一些遐想空間。
我們都知道,AI推理要求模型在作答前先進行「思考」——「思考」越多,答案越好。然而,模型的「思考」同時也伴隨着時間的流逝,以及資金的消耗。
因此,「小」芯片公司的主線任務則變成——優化「思考」所消耗的時間成本,或是資金成本中的任何一項,就能建立自身護城河。
挑戰者聯盟都說了些啥?
這次放話的挑戰者分別是Groq、SambaNova,以及Positron AI。
前二位的名聲更大一些。
先說Groq,這家創企由前谷歌TPU核心團隊的「8叛將」於2016年創辦,平時喜歡在官博「喊麥」,代表作爲《Hey Zuck...》《Hey Sam...》《Hey Elon...》等等。
當然,Groq的實力還是不容小覷,其AI推理引擎LPU號稱做到了「世界最快推理」,不僅有超快的大模型速度演示,還有遠低於GPU的token成本。
2023年7月,Groq甩出了LPU的推理速度,運行Meta的Llama 3 80億參數大模型,每秒超過1250個token。
2024年12月,Groq推出一款高性能計算芯片,名爲「猛獸」(Beast)。據稱,這頭「猛獸」在AI推理任務中的性能超越英偉達的某些主流GPU;能夠通過優化硬件設計,減少不必要的運算環節,大幅提升計算效率。
也正是2024年8月,Groq雙喜臨門,獲得了6.4億美元D輪融資,估值達28億美元;其創始人Jonathan Ross請來楊立昆擔任技術顧問。
Groq的LPU(線性處理單元)不同於GPU(圖形處理單元),設計理念是解決傳統架構中外部內存的瓶頸,通過將大量計算資源集中在片內共享內存中,實現數據流動的高效優化,避免外部內存的頻繁調用。此外,LPU支持多個張量流處理器的串聯擴展,規避了傳統GPU集群中因數據交換帶來的性能損耗。
對於2025年,Groq首席佈道官Mark Heaps喊話:“我希望客戶能認識到與現有技術相比的新進展。許多人對我們說,我們喜歡你們的技術,但沒人因爲選擇某家傳統供應商而被解僱。如今,市場已經開始變化,人們意識到從傳統供應商處獲得芯片並不容易,而且性能也未必如Groq的技術那樣出色。我希望更多人願意嘗試這些新技術。”
不過,Groq要解決的真正問題是客戶總體成本。
雖然創始人Jonathan Ross宣稱:LPU速度比英偉達GPU快10倍,但價格和耗電量都僅爲後者的十分之一。
但自稱「Groq超級粉絲」的原阿里副總裁賈揚清對比了LPU和H100,他的結論卻是:用Groq的LPU反而使硬件成本和能耗成本大幅度上升,在運行Llama2- 70b模型時,305張Groq才能等同於8張英偉達H100。
芯片專家姚金鑫也指出,Groq架構建立在小內存(230MB)、大算力上。按照當前對大模型的推理部署,7B模型大約需要14G以上的內存容量,爲了部署一個7B的模型,大約需要70張左右。
此前一位自稱Groq員工的用戶表示,Groq致力於成爲最快速的大規模模型硬件,併發誓三年內趕超英偉達。
第二位成員是SambaNova。
SambaNova的創立時間比Groq晚一年,如今卻以50億美元的估值身居AI芯片初創公司榜首。
SambaNova RDU既有GPU 10 倍以上的片上分佈SRAM,也有適用於需要快速數據傳輸的大規模計算任務的HBM。(Groq則是摒棄了HBM,僅依賴SRAM進行計算。)其架構可以自動做到極致的算子融合,達到 90%以上的HBM利用率,使得RDU 對 GPU 有了 2-4 倍的性能優勢。
值得一提,SambaNova在業務模式上頗具野心。公司不單賣芯片,而是出售其定製的技術堆棧,從芯片到服務器系統,甚至包括部署大模型。
聯創Rodrigo Liang認爲,大模型與生成式AI商業化的下一個戰場是企業的私有數據,尤其是大企業。最終,企業內部不會運行一個GPT-4或谷歌Gemini那樣的超大模型,而是根據不同數據子集創建150個獨特的模型,聚合參數超過萬億。
目前,SambaNova已贏得不少大客戶,包括世界排名前列的超算實驗室,日本富嶽、美國阿貢國家實驗室、勞倫斯國家實驗室,以及諮詢公司埃森哲等。
對於2025年,Liang喊話:“對於SambaNova來說,關鍵是推動從訓練到推理的轉變。行業正快速邁向實時應用,推理工作負載已成爲AI需求的核心。我們的重心是確保技術能夠幫助企業高效、可持續地擴展規模。”
“如果我有一根魔法棒,我會解決AI部署中的電力問題。如今,大多數市場仍在使用設計上不適合規模化推理的高耗能硬件,這種方式在經濟上和環境上都不可持續。SambaNova的架構已經證明有更好的解決方案。我們能耗僅爲傳統方案的十分之一,使企業能夠在不突破預算或碳排放目標的情況下實現AI目標。我希望市場能更快地接受這種優先考慮效率和可持續性的技術。”
第三位是Positron AI。
Positron成立於2023年4月,名氣相對較小。
2023年12月,Positron AI推出了一款推理芯片,聲稱可以執行與英偉達H100相同的計算,但成本僅爲五分之一。
2024年10月,Positron AI還上榜了The information的《2024全球50家最具潛力初創公司榜》。
Positron CEO Thomas Sohmers表示:2024年,AI計算開支的重心已經轉向推理,預計這種趨勢將沿着「指數增長曲線」繼續擴大。
對於2025年,Sohmers喊話:「我認爲,如果我們能部署足夠多的推理計算能力——從供應鏈角度看,我有信心能做到——那麼通過提供更多專用於推理的計算資源,我們將能夠推動『鏈式思維』等能力的廣泛採用。」
據悉,Positron的願景是讓人人負擔得起AI推理。對此,Sohmers的新年願望是:“我想做同樣多的事情來鼓勵使用這些新工具來幫助我的媽媽。我進入技術領域的部分原因是因爲我希望看到這些工具幫助人們能夠利用他們的時間做更多的事情——學習他們想要的一切,而不僅僅是他們從事的工作。我認爲降低這些東西的成本將會促進這種擴散。”
結語
面對四面八方的挑戰者,英偉達似乎無暇顧及。
前幾天,英偉達爲推理大模型打造的B300系列出爐——高算力,相比B200在FLOPS上提高50%;大顯存,192GB提升到288GB,即提高了50%。
B300將有效地提升大模型的推理性能:每個思維鏈的延遲更低;實現更長的思維鏈;降低推理成本;處理同一問題時,可以搜索更多樣本,提高模型能力。
根據半導體「牧本週期」——芯片類型有規律地在通用和定製之間不斷交替——在某個特定時期內,通用結構最受歡迎,但到達一定階段後,滿足特定需求的專用結構會奮起直追。
當前,英偉達所代表的通用結構時代正處於顛覆。
更何況,英偉達早已全面開花。除了專爲雲計算、5G電信、遊戲、汽車等領域客戶構建定製芯片。2025年上半年,英偉達還將發佈其最新一代人形機器人芯片Jetson Thor。
所以,最後還是那句話:不要想着幹掉英偉達,而是去做英偉達之外的事。