如果您希望可以時常見面,歡迎標星 收藏哦~
本週二,Nvidia的股價再次超越蘋果,成爲全球最有價值的公司,繼今年6月創下類似紀錄後,再度迎來輝煌時刻。在過去兩年中,憑藉GPU的強大算力,Nvidia在AI時代可謂風光無限,芯片性能不斷攀升,取得了巨大的市場成功。然而,不得不指出的是,儘管GPU技術飛速發展,仍有一些短板技術正在成爲英偉達發展的隱性障礙,影響着其進一步的突破。
高歌猛進的GPU
近一兩年來,我們可以看到GPU的速度迭代非常快,背後很大的因素是生成式AI(大模型)的爆發式增長。IDC預測到2027年,全球生成式AI市場規模將攀升至1454億美元,中國市場的投資也將達到129億美元,IDC指出,這一發展趨勢的動力源自技術迭代的加速、應用領域的拓寬,以及企業對 AI 創新驅動的不懈投入。
算力是生成式AI發展的物理基礎,GPU是加速計算的主要工具。要實現大模型的突破,就需要大幅提高GPU的性能。GPU目前正進入一種「自我加速」的發展模式。英偉達和AMD等廠商面臨着巨大的市場壓力,它們必須不斷在硬件設計上推陳出新,力求實現每年一個小迭代、每兩年一個大迭代,才能滿足這些需求。即使Hopper H100 GPU 平台是「歷史上最成功的數據中心處理器」,但黃仁勳在今年的Computex主題演講中說到,Nvidia也必須繼續努力。
英偉達的GPU架構從Fermi到 Hopper再到Blackwell,每次架構升級都帶來性能和能效上的顯著提升。從「Pascal」 P100 GPU一代到「Blackwell」 B100 GPU 一代,八年間GPU 的性能提升了1,000多倍。雖然過去八年性能提升了1000多倍,但是GPU的價格僅上漲了7.5倍。據了解,Nvidia的新款基於Blackwell的GB200 GPU系統能夠以比上一代H100系統的推理速度快30倍,但與H100 首次發佈時的價格大致相同,預計每台GB200 GPU 的售價在30,000至40,000美元之間。
從Hopper GPU開始,英偉達就一直屬於搶手貨,而新一代的Blackwell亦是如此。10月,英偉達CEO黃仁勳表示,最新的Blackwell GPU未來12個月的訂單均已經售罄,AWS、Google、Meta、Microsoft、Oracle 和CoreWeave等主要科技巨頭是大買手。
由於對數據中心GPU的需求,Nvidia的市值自2023年初以來增長了近十倍。2023年初,英偉達的市值爲3600億美元。不到兩年後,其市值已超過3.4萬億美元。
Nvidia市值超越蘋果成爲全球最有價值的公司
GPU規模的發展速度之快是前所未有的,就拿AMD來說,在 AMD 2024 年第三季度業績電話會議上,AMD CEO Lisa Su指出,其GPU銷量已接近CPU銷量,這點與AMD涉足AI市場大有關係。AMD的AI GPU業務才剛開始一年,營收就已經快達到CPU業務規模。在業績會上,Lisa Su還表示:「僅在數據中心,我們預計AI加速器市場規模將以每年60%以上的速度增長,到2028年將達到5000億美元。這大致相當於2023年整個半導體行業的年銷售額。」AMD將2024年GPU銷售額預測從45億美元上調至50億美元以上。
然而,GPU這樣的快速發展也帶來了新問題。隨着GPU性能的不斷提升,背後支持它們的基礎設施——尤其是互聯技術和存儲技術——卻顯得相對滯後。
跟不上的互聯技術
如今,大型語言模型(LLMs)如ChatGPT、Chinchilla 和 PALM,以及推薦系統如 DLRM 和 DHEN,都在成千上萬的 GPU 集群上進行訓練。訓練過程包括頻繁的計算和通信階段,互聯技術就顯得尤爲關鍵。
傳統的互聯技術如PCIe(外圍組件互聯)接口的帶寬已難以支撐日益增大的數據傳輸需求,也早已經跟不上GPU的速度,PCIe標準雖然逐步演進,但它的傳輸帶寬與GPU處理能力之間的差距越來越大。特別是在多卡並行計算的場景中,PCIe顯得捉襟見肘,限制了GPU的最大性能釋放。儘管目前許多大公司嘗試採用標準PCIe交換機,並通過基於PCIe的結構擴展到更多加速器,但這只是權宜之計。
爲了應對這一瓶頸,英偉達開發了自家的高速互聯技術——NVLink和Infiniband。NVLink 技術可用於 GPU 之間的高速點對點互連,提供高帶寬和低延遲的數據傳輸,並通過 Peer to Peer 技術完成 GPU 顯存之間的直接數據交換,進一步降低數據傳輸的複雜性。這對於分佈式環境下運行的複雜 AI 模型尤爲重要。更快的縱向互聯有助於服務器集群內每個 GPU 性能的充分釋放,從而提升整體計算性能。
至於Infiniband技術,是一種網絡連接技術。英偉達於2019年收購了Mellanox Technologies,Mellanox是全球領先的InfiniBand技術提供商之一。收購後,英偉達繼續推進InfiniBand技術的創新,並在其加速計算平台中深度集成了InfiniBand網絡。雖然以太網(Ethernet)在很多應用中是主流的網絡連接技術,但在高性能計算(HPC)和AI訓練等場景中,InfiniBand相較於以太網,具有顯著優勢:它提供更高的帶寬、更低的延遲,且原生支持遠程直接內存訪問(RDMA),使得數據傳輸更加高效。
而AMD則推出了自己的Infinity Fabric互聯技術,專爲數據中心優化,旨在提升數據傳輸速度和降低延遲。不過Infinity Fabric自然也是比不過NvLink的,不然AMD也不會發起UALink聯盟。
NVLink和InfiniBand技術雖然具有明顯優勢,但它們都是英偉達的專有技術。隨着行業對互聯技術需求的不斷增長,一方面希望避免英偉達在技術上的壟斷,另一方面也面臨着互聯技術瓶頸的挑戰。因此,許多企業開始對標英偉達的互聯技術,嘗試開發替代方案。
去年7月19日,超級以太網聯盟 (UEC)成立,來對標InfiniBand。創始成員包括AMD、Arista、Broadcom、思科、Eviden(Atos 旗下企業)、HPE、英特爾、Meta 和微軟。目前超級以太網聯盟已經吸引了67家公司的加入。其中不乏有許多初創公司,聯盟的成立將使這些初創公司從該聯盟的舉措中受益匪淺,UEC將成爲初創公司在優化 TCO 的同時駕馭複雜的AI和HPC網絡格局的關鍵。
今年,行業再度將錨頭瞄向於NVLink。今年10月,由AMD主導,九大行業巨頭——包括AMD、英特爾、Meta、惠普企業、亞馬遜AWS、Astera Labs、思科、谷歌和微軟——正式聯合成立了UALink(統一加速器互聯)。UALink的目標是成爲AI加速器擴展連接的行業開放標準。其主要優勢在於,UALink爲複製NVLink和NVSwitch功能並與其他公司共享開發成果提供了一條途徑,從而讓整個行業的其他參與者都有機會與NVIDIA保持步調一致。
UALink 1.0規範將於今年向會員開放。該標準將爲AI pod內多達1,024個加速器實現高達每通道200Gbps的連接。假設 Nvidia HGX 風格的服務器內部有 8 個 AI 加速器,UALink 可以在一個pod中連接多達 128 台這樣的機器。據tomshardware的報道,不過,UALink 最有可能經常以較小的規模使用,大約8個服務器的pod通過UALink相互通信,進一步的升級由超級以太網處理。聯盟成員將在今年獲得該規範的訪問權限,並於 2025 年第一季度開始進行全面審查。
無論是NVLink、Fabric還是UALink,這一系列舉措反映出,現有的互聯技術跟不上加速器發展速度的普遍問題,行業迫切需要新的解決方案來支持更強勁的算力需求。
存儲更吃力
與互聯技術的滯後相比,存儲技術的進步似乎顯得更加吃力。在AI、機器學習和大數據的推動下,數據量呈現出指數級的增長,存儲技術必須緊隨其後,才能確保數據處理的效率和速度。對於當前的內存行業來說,高帶寬內存(HBM)已經成爲焦點,尤其是在大模型訓練所需的GPU芯片中,HBM幾乎已經成爲標配。
GPU依賴於高帶寬內存(HBM)來滿足高速數據交換的需求。與CPU相比,GPU需要更加頻繁的內存訪問,且數據的訪問模式具有很高的並行性。這要求存儲系統必須能夠在毫秒級的延遲內提供極高的數據帶寬。
2013年,SK海力士推出了首款HBM芯片,直到大模型的崛起,HBM才真正迎來了應用的黃金時機。近年來,SK海力士加速推進HBM技術的更新迭代。今年9月,SK海力士成功批量生產了全球首款12層HBM3E產品,並計劃於2025年初推出首批16層HBM3E芯片樣品。原本預計在2026年量產的HBM4,SK海力士已將時間表提前,預計將在2025年下半年交付12層HBM4芯片。
儘管如此,黃仁勳仍在敦促SK海力士加快HBM4的供應,初步要求提前6個月交付。雖然HBM的需求火爆,存儲廠商依然面臨着生產能力、技術瓶頸和成本等多重挑戰。
存儲技術的滯後給高性能計算帶來了多重挑戰:
計算能力浪費:GPU的強大計算能力無法得到充分利用,存儲瓶頸導致大量的GPU計算資源處於空閒狀態,無法高效地執行任務。這種不匹配導致了系統性能的低效發揮,增加了計算時間和能源消耗。
AI訓練效率下降:在深度學習訓練過程中,大量的數據需要頻繁地在GPU與存儲之間交換。存儲的低速和高延遲直接導致AI訓練過程中的數據加載時間過長,從而延長了模型訓練的週期。這對於需要快速迭代的AI項目來說,尤其是商業應用中,可能會造成較大的成本壓力。
大規模數據處理的障礙:隨着大數據的興起,許多AI應用需要處理海量數據。當前存儲技術未能有效支持大規模數據的快速處理和存儲,特別是在多節點分佈式計算的場景中,存儲瓶頸往往成爲數據流動的最大障礙。
爲了解決存儲跟不上GPU發展的瓶頸,業界已經提出了一些潛在的解決方案:例如存算一體以及CXL這樣的智能存儲架構。
隨着處理在內存(PIM)技術的興起,計算和存儲有可能進行更緊密的集成。PIM技術允許計算任務直接在存儲設備上進行處理,避免了數據在計算和存儲之間的傳輸瓶頸。此類技術有望大幅提升存儲系統的性能,並有效支持GPU等計算芯片的高速數據訪問需求。
智能存儲架構:通過採用更智能的存儲架構,如CXL(Compute Express Link)和NVMe協議,可以實現更高效的存儲擴展和更低延遲的數據訪問。CXL提供了計算和存儲之間的高速互聯,使得GPU能夠更快速地訪問存儲數據,解決傳統存儲架構中存在的帶寬瓶頸問題。
存儲技術滯後於計算芯片發展的現象,顯然已經成爲現代計算系統中的瓶頸。儘管存儲技術已經取得了一些進展,但與GPU等計算芯片的快速發展相比,仍存在較大的差距。
總結
在當今快速演變的技術生態系統中,多技術協同升級已成爲推動新興技術發展的核心動力。要實現算力的持續增長,GPU、互聯、存儲等技術必須協調發展。雖然GPU技術已取得了顯著進步,但沒有更高效的互聯技術和更快的存儲技術支撐,算力的潛力將無法完全釋放。
對於英偉達等科技巨頭而言,如何繼續推動GPU與其他關鍵技術的協同進化,解決存儲、互聯的瓶頸,將是未來幾年中的主要挑戰。