如果您希望可以時常見面,歡迎標星 收藏哦~
來源:內容編譯自semianalysis,謝謝。
Nvidia 推出其第一代 Blackwell B200 系列處理器時遇到了阻礙,原因是 產量問題,並且還出現了幾份未經證實的服務器過熱報告。然而,據 SemiAnalysis報道,Nvidia 的第二代Blackwell B300 系列處理器似乎 即將問世。它們不僅具有更大的內存容量,而且性能提高了 50%,而 TDP 僅增加了 200W。
Nvidia 的 B300 系列處理器採用了經過大幅調整的設計,仍將採用台積電的 4NP 製造工藝(針對 Nvidia 進行優化的 4nm 級節點,性能增強),但報告稱,它們的計算性能將比 B200 系列處理器高出 50%。性能提升的代價是高達 1,400W 的 TDP,僅比 GB200 高 200W。SemiAnalysis 稱,B300 將在 B200 上市大約半年後上市。
Nvidia B300 系列的第二項重大改進是使用 12-Hi HBM3E 內存堆棧,可提供 288 GB 內存和 8 TB/s 帶寬。增強的內存容量和更高的計算吞吐量將實現更快的訓練和推理,推理成本最多可降低三倍,因爲 B300 可以處理更大的批量大小並支持擴展的序列長度,同時解決用戶交互中的延遲問題。
除了更高的計算性能和更大的內存外,Nvidia 的第二代 Blackwell 機器還可能採用該公司的 800G ConnectX-8 NIC。該 NIC 的帶寬是當前 400G ConnectX-7 的兩倍,並且有 48 個 PCIe 通道,而其前代產品只有 32 個。這將爲新服務器提供顯着的橫向擴展帶寬改進,這對大型集群來說是一個勝利。
B300 和 GB300 的另一個重大改進是,與 B200 和 GB200 相比,Nvidia 據稱將重新設計整個供應鏈。該公司將不再試圖銷售整個參考主板或整個服務器機箱。相反,Nvidia 將只銷售搭載 SXM Puck 模塊、Grace CPU 和 Axiado 主機管理控制器 (HMC) 的 B300。因此,將允許更多公司參與 Blackwell 供應鏈,這有望使基於 Blackwell 的機器更容易獲得。
藉助 B300 和 GB300,Nvidia 將爲其超大規模和 OEM 合作伙伴提供更多設計 Blackwell 機器的自由,這將影響它們的定價甚至性能。
Nvidia 的聖誕禮物:GB300 和 B300
在 GB200 和 B200 發佈僅 6 個月後,他們就向市場推出了一款全新的 GPU,名爲 GB300 和 B300。雖然表面上聽起來只是漸進式的,但實際效果遠超預期。
這些變化尤其重要,因爲它們包括對推理模型推理和訓練性能的巨大提升。Nvidia 爲所有超大規模企業,尤其是亞馬遜、供應鏈中的某些參與者、內存供應商及其投資者準備了一份特別的聖誕禮物。隨着向 B300 的轉移,整個供應鏈正在重組和轉變,爲許多贏家帶來了禮物,但也有一些輸家得到了煤炭。
B300 GPU 是基於 TSMC 4NP 工藝節點的全新流片,也就是說,它是針對計算芯片的微調設計。這使得 GPU 在產品層面上能夠提供比 B200高 50% 的 FLOPS。部分性能提升將來自 200W 的額外功率,GB300 和 B300 HGX 的 TDP 分別達到 1.4KW 和 1.2KW(而 GB200 和 B200 的 TDP 分別爲 1.2KW 和 1KW)。
其餘性能提升將來自架構增強和系統級增強,例如 CPU 和 GPU 之間的功率浮動。功率浮動是指 CPU 和 GPU 之間動態重新分配功率
除了 FLOPS 增加外,內存還從 8-Hi 升級到 12-Hi HBM3E,每個 GPU 的 HBM 容量增加到 288GB。但是,引腳速度將保持不變,因此內存帶寬仍爲每 GPU 8TB/s。請注意,三星正在從聖誕老人那裏獲得煤炭,因爲他們至少在未來 9 個月內無法進入 GB200 或 GB300。
此外,Nvidia 也因爲聖誕節的氣氛,所以定價也相當有意思。這改變了 Blackwell 的利潤率,但以後再討論定價和利潤率的問題。首先要討論的是性能變化。
爲推理模型推理而構建
由於長序列長度會增加 KVCache,從而限制關鍵批次大小和延遲,因此內存的改進是 OpenAI O3 風格 LLM 推理訓練和推理的關鍵。
下圖顯示了 Nvidia 當前幾代 GPU 在 1k 輸入token、19k 輸出token上運行對token經濟學的改進,這類似於 OpenAI 的 o1 和 o3 模型中的思路鏈。這個演示性的屋頂線模擬是在 FP8 的 LLAMA 405B 上運行的,因爲它是我們可以使用 H100 和 H200 GPU(我們可以訪問的 GPU)模擬的最佳公共模型。
從 H100 升級到 H200 純粹是內存更大、速度更快的升級,有兩個效果。
由於內存帶寬更大,所有可比批次大小的交互性普遍提高了 43%(H200 @ 4.8TB/s vs H100 @ 3.35TB/s)。
由於 H200 運行的批處理大小比 H100 大,每秒可生成 3 倍的令牌,因此成本降低了約 3 倍。這種差異主要是因爲 KVCache 限制了總批處理大小。
更大內存容量帶來的動態變化似乎不成比例的好處是巨大的。對於操作員來說,這兩款 GPU 之間的性能和經濟差異比紙面上的規格所暗示的要大得多:
由於請求和響應之間等待時間過長,推理模型的用戶體驗可能會很差。如果您可以提供更快的推理時間,這將增加用戶使用和付費的傾向。
3 倍的成本差異是巨大的。坦率地說,通過中代內存升級實現 3 倍性能提升的硬件是瘋狂的,比摩爾定律、黃定律或我們所見過的任何其他硬件改進速度都要快得多。
我們觀察到,最強大和差異化的模型能夠比能力稍差的模型收取更高的費用。前沿模型的毛利率超過 70%,但落後模型的利潤率低於 20%。推理模型不必是一條思路。搜索是存在的,並且可以擴展以提高性能,就像 O1 Pro 和 O3 中所做的那樣。這使得更智能的模型能夠解決更多問題,併爲每個 GPU 產生更多收入。
當然,Nvidia 並不是唯一一家能夠增加內存容量的公司。ASIC 可以做到這一點,事實上,AMD 可能處於有利地位,因爲它們的內存容量比 Nvidia 更高,一般來說,MI300X 的內存容量爲 192GB,MI325X 的內存容量爲 256GB,MI350X 的內存容量爲 288GB……不過聖誕老人黃有一隻叫做 NVLink 的紅鼻子馴鹿。
當我們轉向 GB200 NVL72 和 GB300 NVL72 時,基於 Nvidia 的系統的性能和成本將大幅提升。在推理中使用 NVL72 的關鍵點在於它能夠讓 72 個 GPU 以極低的延遲處理同一個問題,共享內存。世界上沒有其他加速器具有全對全交換連接。世界上沒有其他加速器可以通過交換機完成所有縮減。
Nvidia 的 GB200 NVL72 和 GB300 NVL72 對於實現許多關鍵功能至關重要。
更高的交互性使得每個思路鏈的延遲更低。
72 個 GPU 分散 KVCache,以實現更長的思維鏈(提高智能)。
與典型的 8 GPU 服務器相比,批量大小擴展效果更好,從而降低了成本。
通過搜索更多樣本來解決同一問題,可以提高準確性並最終提高模型性能。
因此,使用 NVL72 的token經濟學要好 10 倍以上,尤其是在長推理鏈上。KVCache 消耗內存對經濟來說是致命的,但 NVL72 是將推理長度擴展到高批次 100k+ token的唯一方法。
Blackwell 供應鏈爲 GB300 重新設計
隨着 GB300 的推出,Nvidia 提供的供應鏈和內容發生了巨大變化。對於 GB200,Nvidia 提供整個 Bianca 主板(包括 Blackwell GPU、Grace CPU、512GB LPDDR5X、VRM 內容,全部集成在一個 PCB 上),以及開關托盤和銅背板。
對於 GB300,Nvidia 不會提供整個 Bianca 主板,而是僅提供「SXM Puck」模塊上的 B300、BGA 封裝上的 Grace CPU 以及來自美國初創公司 Axiado 而非 GB200 的 Aspeed 的 HMC。
最終客戶現在將直接採購計算板上的剩餘組件,第二層內存將是 LPCAMM 模塊,而不是焊接的 LPDDR5X。美光將成爲這些模塊的主要供應商。
交換機托盤和銅背板保持不變,這些組件全部由 Nvidia 提供。
另一個重大轉變是 VRM 內容。雖然 SXM Puck 上有一些 VRM 內容,但大部分板載 VRM 內容將由超大規模製造商/OEM 直接從 VRM 供應商處採購。10 月 25 日,我們向Core Research 訂閱者發送了一份說明,說明 B300 如何重塑供應鏈,特別是圍繞電壓調節器模塊(「VRM」)。我們特別指出了單片電源系統將如何因商業模式的轉變而失去市場份額,以及哪些新進入者正在獲得市場份額。在我們向客戶發送說明後的一個月內,由於市場意識到了我們領先研究中的事實,MPWR 下跌了 37% 以上。
Nvidia 還在 GB300 平台上提供 800G ConnectX-8 NIC,在 InfiniBand 和以太網上提供兩倍的橫向擴展帶寬。Nvidia 不久前取消了 GB200 的 ConnectX-8,原因是上市時間複雜,並且放棄在 Bianca 板上啓用 PCIe Gen 6。
ConnectX-8 相比 ConnectX-7 有了巨大改進。它不僅擁有 2 倍帶寬,還擁有 48 個 PCIe 通道(而非 32 個 PCIe 通道),從而支持獨特的架構,例如風冷 MGX B300A。此外,ConnectX-8 還支持 SpectrumX ,而在之前的 400G 代產品中,SpectrumX 所需的Bluefield 3 DPU 效率要低得多。
GB300 對超大規模的影響
GB200 和 GB300 延遲對超大規模計算的影響意味着,從第三季度開始,許多訂單將轉向 Nvidia 新的更昂貴的 GPU。截至上週,所有超大規模計算公司都已決定繼續使用 GB300。部分原因是 GB300 的性能因更高的 FLOPS 和更大的內存而提高,但也有一部分原因是他們能夠掌控自己的命運。
由於上市時間的挑戰以及機架、冷卻和電力輸送/密度的重大變化,超大規模企業無法在服務器級別對 GB200 進行太大的更改。這導致 Meta 放棄了能夠從 Broadcom 和 Nvidia 多源獲取 NIC 的所有希望,轉而完全依賴 Nvidia。在其他情況下,例如 Google,他們放棄了內部 NIC,轉而只與 Nvidia 合作。
對於超大規模的數千人組織來說,這就像黑板上的釘子一樣,他們習慣於對從 CPU 到網絡,甚至螺絲和金屬板的所有東西進行成本優化。
最令人震驚的例子是亞馬遜,它選擇了非常次優的配置,與參考設計相比,TCO 更差。由於使用 PCIe 交換機和效率較低的 200G Elastic Fabric Adaptor NIC(需要風冷),亞馬遜無法部署 NVL72 機架,如 Meta、Google、Microsoft、Oracle、X.AI 和 Coreweave。由於其內部 NIC,亞馬遜不得不使用 NVL36,由於背板和交換機內容更多,每個 GPU 的成本也更高。總而言之,由於定製方面的限制,亞馬遜的配置不是最優的。
現在,藉助 GB300,超大規模數據中心運營商能夠定製主板、冷卻系統等。這使得亞馬遜能夠構建自己的定製主板,該主板採用水冷,並集成了之前採用風冷的組件,例如 Astera Labs PCIe 交換機。在 25 年第三季度,水冷更多組件以及最終在 K2V6 400G NIC 上實現 HVM 意味着亞馬遜可以重新轉向 NVL72 架構並大大改善其 TCO。
不過,有一個很大的缺點,那就是超大規模企業必須進行大量的設計、驗證和確認工作。這無疑是超大規模企業有史以來必須設計的最複雜的平台(谷歌的 TPU 系統除外)。某些超大規模企業將能夠快速設計,但其他團隊速度較慢的企業則落後了。總體而言,儘管有市場取消報告,但我們認爲微軟是部署 GB300 速度最慢的企業之一,原因是設計速度太快,他們仍在第四季度購買一些 GB200。
由於組件從 Nvidia 的利潤堆積中抽出,轉移到 ODM 身上,因此客戶支付的總價格相差很大。ODM 的收入會受到影響,最重要的是,Nvidia 的毛利率也會在一年內發生變化。
參考鏈接