劃重點:
1、英偉達在AI工作負載市場占主導地位,這得益於其在硬件、軟體和網絡方面的「三頭龍」戰略。
2、谷歌、亞馬遜、Meta以及微軟等巨頭持續投資數據中心,表明「規模擴張」並未過時。
3、英偉達依然在AI芯片領域佔據主導地位,來自AMD、谷歌以及亞馬遜的挑戰短期內難以撼動其王座。
4、帕特爾預計,2025年半導體市場將繼續增長,但2026年存在不確定性,模型持續改進、資金持續湧入是關鍵因素。
半導體研究與人工智能領域的知名分析師迪倫·帕特爾(Dylan Patel)
12月25日消息,在美國當地時間週二上線的Open Source雙週對話播客中,半導體研究與人工智能領域的知名分析師迪倫·帕特爾(Dylan Patel)接受了專訪。訪談中,帕特爾談到了英偉達在行業中的主導地位及競爭優勢、在擴大AI預訓練規模時所面臨的挑戰、數據中心基礎設施的發展與資本支出策略、合成數據的生成技術、推理時間計算的成本效益分析、英偉達當前所面臨的挑戰,並對未來一至兩年內的行業前景進行了展望。
(編者注:帕特爾是半導體研究與諮詢公司SemiAnalysis的創始人兼首席分析師,在半導體領域內具備淵博的專業知識與廣泛的行業影響力,他因對芯片產業透徹的洞察力和精準的預判能力而著稱。SemiAnalysis專注於半導體供應鏈的研究,業務覆蓋化學原料、芯片製造、晶圓廠運營、設計知識產權管理以及戰略規劃等各個環節。SemiAnalysis的子棧平台匯聚了大約5萬名用戶,是全球第二大技術子棧。)
本文整理了迪倫·帕特爾主要觀點如下:
01 英偉達就像三頭龍
英偉達在全球人工智能工作負載領域佔據着壓倒性優勢,若不計入谷歌,全球98%的人工智能工作負載在英偉達芯片上運行。但在納入谷歌後,該比例下降至約70%,這主要是因爲谷歌在人工智能,尤其是生產工作負載領域,佔據了極大的市場份額。
英偉達之所以能在人工智能領域佔據主導地位,帕特爾認爲可以將其比作三頭龍。首先,相較於世界上其他半導體公司,英偉達的軟體實力(CUDA生態)非常強大。其次,英偉達的硬件性能也遠超多數同行。英偉達之所以能夠快速引入新技術,是因爲他們始終致力於實現特定的生產目標,從芯片的設計構想到最終部署,速度都遠超競爭對手。最後,英偉達在網絡領域也展現出了強勁的實力,他們通過收購Mellanox,進一步強化了自身的網絡能力。這三方面優勢的結合,使得英偉達就像三頭龍,讓其他半導體公司難以望其項背。
值得一提的是,英偉達的競爭壁壘往往被低估。他們獨創了NVLink架構,能夠高效地將多個芯片連接在一起。如今,英偉達的Blackwell系統備受矚目,它不僅是一個GPU機架,更是一個集成了成千上萬電纜和複雜組件的龐大系統,重量高達三噸。
然而,英偉達也面臨着挑戰。人工智能工作負載龐大且成本高昂,對於大型客戶而言,支出可能達到數十億美元。這意味着客戶有可能投入資源研究如何在其他硬件上運行自己的模型。雖然在其他硬件上進行訓練可能仍然具有挑戰性,但在推理方面,客戶可能更容易找到替代方案。
02 「縮放定律」依然有效
帕特爾解釋稱,預訓練的縮放定律原理相對直觀:增加計算資源併合理投入模型中,通常就能提升其性能。這一過程可細分爲數據和參數兩個維度,且存在一個最優比例以實現最佳縮放效果。
但在數據稀缺或難以獲取的情況下,單純增加模型參數並不能帶來顯著收益。從對數圖來看,每次性能提升均需十倍投入。因此,在數據不足的情況下,增加資源投入可能無法獲得預期收益。然而,數據生成技術仍處於初級階段,未來發展潛力巨大。
帕特爾預計,我們或將在未來六個月至一年內見證模型性能的顯著提升,這得益於合成數據生成技術的快速發展。儘管當前在計算資源投入上已相當可觀,但我們尚未將數十億美元用於合成數據生成、功能驗證和推理訓練等領域,目前僅投入數百萬至數千萬美元。
隨着規模的擴大,新的資金投入方向將湧現。同時,測試時的計算需求也將增加,即在推理過程中投入更多時間以獲得更優結果。許多實驗室研究人員認爲,由於這一新方向的解鎖,未來一年或六個月的收益將更爲顯著。
這依然是規模化發展的體現,因爲這一過程需要巨大的計算量。生成的數據量遠超網絡上現有的數據,儘管大部分數據會被捨棄,但生成的數據量之大足以支撐模型的持續運行。
03 「規模擴張」並未過時
當我們審視全球數據中心的發展動態時,不難發現微軟、谷歌、Meta和亞馬遜等巨頭在數據中心上的投入堪稱驚人。從電力供應情況、監管文件到衛星圖像等諸多跡象,都可以清晰地看到這些公司在數據中心建設方面正加速步伐。
對於「規模擴張已死」的論斷,這些公司的實際行動無疑給出了最有力的反駁。例如,Meta正在路易斯安那州建設大型數據中心、亞馬遜、谷歌和微軟也在多個地點建設吉瓦級的數據中心,並且它們爲連接這些數據中心不惜斥資數十億美元購買光纖網絡,這些都證明它們對規模擴張的信念。
超大規模公司在數據中心領域的持續巨額投資,不僅彰顯了「規模擴張」策略依然生機勃勃,而且這一策略正朝着更高效、更高性能的規模化方向演進。數據中心的發展不再單純追求數量上的增長,而是更加註重資源的有效利用和整體性能的提升。
值得注意的是,數據中心的建設並非毫無限制。與GPU芯片供應相比,電力供應和空間資源成爲了更爲緊迫的制約因素。
04 推理時間計算雖貴卻值
在訪談中,帕特爾還解釋了推理時間計算帶來的好處。
在推理時間計算的過程中,我們無需再額外投入時間於模型訓練,這有效降低了訓練成本,儘管推理成本可能會有所增加,但這樣的權衡是值得的。
以GPT-4爲例,其訓練成本高達數億美元,然而,它目前所創造的收入已遠超這一數字。對於OpenAI而言,GPT-4的投資回報率極爲可觀。若能避免巨額的前期訓練投入,並能在模型產生收入時即刻部署,這無疑是一個極具吸引力的選項。
試想,若能提升灣區年薪30萬美元的開發者效率20%,那麼所帶來的效益將是巨大的。若能將100人的開發團隊精簡至75人或50人,同時保持相同的工作量,甚至實現代碼交付量的翻倍,那麼採用成本更高的模型也是物有所值的。相比之下,即便是價格昂貴的o1模型,在與4o模型相比時,也顯得相對划算。
因此,擁有最好的模型固然重要,但更重要的是要有願意爲這些優質模型支付高額費用的企業或消費者。畢竟,只有當有人願意爲這些模型買單時,我們才能確保它們的高額利潤。而這些買單者,要麼是企業,要麼是消費者。因此,帕特爾認爲,在不久的將來,能夠參與最佳模型競爭的市場參與者將逐漸縮減至少數幾個巨頭。
05 英偉達王座穩固
英偉達依然在人工智能芯片領域佔據主導地位,但正面臨着來自定製專用集成電路(ASIC)芯片開發商、AMD以及其他公司的挑戰。
其中,AMD在硅工程領域表現出色,成功擊敗了英特爾,但軟件方面存在短板。帕特爾指出,AMD在軟件開發上投入不足,缺乏GPU集群來支持軟件開發,這與英偉達形成鮮明對比。英偉達利用內部超級計算機集群開發並快速更新軟件,包括網絡、計算和推理軟件。而AMD則忽視了軟件和系統級設計的重要性,過於依賴硬件競爭。
至於谷歌TPU,其在工作負載方面的排名領先。谷歌在芯片互連、與博通的合作、水冷技術及可靠性方面進行了工程優化,這些方面英偉達直到較近的時間才開始重視。不過,TPU僅在谷歌內部應用廣泛,帕特爾認爲谷歌應將更多軟體開源。此外,TPU的定價也讓用戶望而卻步。
亞馬遜的芯片Tranium在硅材料、內存和網絡方面與TPU相當,但效率較低,部分原因是其與Marvell和Alchip合作而非博通,導致電纜成本較高。
06 OpenAI等將繼續燒錢促增長
在訪談最後,帕特爾對2025年和2026年半導體領域的發展趨勢進行了預測。
他認爲,超大規模企業明年將繼續增加投資,網絡設備廠商、ASIC供應商和系統供應商生態系統將受益,英偉達將帶動供應鏈增長。新興雲計算服務市場正在整合,80家相關企業中,可能只有五到十家能生存下來。
2026年英偉達銷量是否會下降,取決於模型是否持續改進和超大規模企業是否願意繼續投資。如果模型改進且企業願意投資,即使單位銷量不增,由於芯片性能增強和成本上升,英偉達的收入仍可能大幅增長。
此外,中東、新加坡等地的主權財富基金和養老基金等資金來源可能會湧入半導體行業,推動公司繼續增長和支出。競爭動態也可能導致這些公司更積極地支出,以避免被超越。
帕特爾相信,像OpenAI、xAI和Anthropic這樣的公司將繼續籌集越來越多的資金,以保持增長勢頭。(騰訊科技特約編譯金鹿)