share_log

IBM芯片,吊打GPU

IBM芯片,吊打GPU

半導體行業觀察 ·  09/26 21:55

如果您希望可以時常見面,歡迎標星 收藏哦~

來源:內容編譯自ibm,謝謝。

較低的延遲通常是以犧牲能源效率爲代價的,但在新發布的實驗結果中,受大腦啓發的IBM NorthPole 研究原型芯片實現了比下一個最快的 GPU 低得多的延遲,並且能源效率比下一個最高效的 GPU 高得多。

隨着研究人員競相開發下一代計算機芯片,人工智能成爲他們關注的焦點。隨着最近生成式人工智能(包括大型語言模型)應用的激增,很明顯,傳統的 CPU 和 GPU 難以提供速度和能效的必要組合。爲了大規模提供人工智能(尤其是對於代理工作流和數字工作者而言),運行這些模型的硬件需要運行得更快。與此同時,人工智能功耗對環境的影響是一個緊迫的問題,因此降低人工智能的功耗至關重要。在加利福尼亞州阿爾馬登的 IBM Research 實驗室中,一個團隊一直在重新思考芯片架構的基礎,以實現這兩個目標,他們的最新成果展示了未來的處理器如何消耗更少的能源並更快地運行。

AIU NorthPole 是 IBM Research 去年首次推出的一款 AI 推理加速器芯片。在基於 IBM Granite-8B-Code-Base 模型開發的 30 億參數 LLM 上運行的推理測試中, NorthPole 實現了每token 1 毫秒以下的延遲,比下一個最低延遲 GPU 快 46.9 倍。在運行 16 個通過 PCIe 通信的 NorthPole 處理器的現成薄型 2U 服務器中,該芯片背後的團隊發現它可以在同一型號上實現每秒 28,356 個token的吞吐量。它在達到這些速度水平的同時,仍實現了比下一個最節能的 GPU 高 72.7 倍的能效。

研究原型 NorthPole 比通常用於 LLM 推理的四個 GPU 具有更低的延遲和更高的能效。

該團隊今天在 IEEE 高性能計算會議上展示了他們的研究成果。新的性能數據基於去年 10 月的成果,當時該團隊展示了 NorthPole 能夠比市場上其他邊緣應用芯片更快、更高效地進行神經推理。在這些實驗中,NorthPole 的能效是常見的 12 nm GPU 和 14 nm CPU 的 25 倍,以每單位功率解釋的幀數來衡量。

NorthPole 採用 12nm 工藝製造,每塊芯片在 795 平方毫米內包含 220 億個晶體管。在《科學》雜誌上發表的結果顯示,該芯片的延遲也低於所有其他測試過的芯片,甚至比那些製造工藝更小的芯片都要低。這些測試是在 ResNet-50 圖像識別和 YOLOv4 物體檢測模型上運行的,因爲該團隊專注於自動駕駛汽車等應用的視覺識別任務。一年後,新結果來自在更大的 30 億參數 Granite LLM 上試用 NorthPole 芯片。

「這裏最重要的是質量的大幅提升。這些新成果與我們的科學成果相當,但應用領域完全不同,」領導芯片開發團隊的 IBM 研究員 Dharmendra Modha 表示。「鑑於 NorthPole 的架構在完全不同的領域運行良好,這些新成果不僅強調了架構的廣泛適用性,還強調了基礎研究的重要性。」

標準 2U 服務器在其四個托架中每個托架可容納四張 NorthPole 卡

Modha 表示,當企業部署代理工作流、數字員工和交互式對話時,低延遲對於 AI 的順利運行至關重要。但延遲和能源效率之間存在根本性的矛盾——通常,一個領域的改進是以犧牲另一個領域爲代價的。

降低 AI 推理延遲和功耗的主要障礙之一是所謂的馮·諾依曼瓶頸。幾乎所有現代微處理器都採用馮·諾依曼架構,其中內存與處理器(包括 CPU 和 GPU)在物理上是分開的。儘管這種設計在歷史上具有簡單靈活的優勢,但在內存和計算之間來回傳送數據限制了處理器的速度。對於 AI 模型來說尤其如此,因爲其計算簡單但數量衆多。儘管處理器效率每兩年提高兩倍,但內存和計算之間的帶寬僅以該速度的一半左右增長。此外,高帶寬內存價格昂貴。

NorthPole 的設計通過將內存和處理放在同一位置來消除這種不匹配,這種架構稱爲片上內存或內存計算。受大腦的啓發,NorthPole 將內存與芯片的計算單元和控制邏輯緊密結合,將內存與芯片的計算單元和控制邏輯緊密結合。這帶來了每秒 13 TB 的龐大片上內存帶寬。

NorthPole 團隊將 30 億參數的 LLM 映射到 16 張卡片上:每張卡片上有 14 個變換器層,兩張卡片上有 1 個輸出層

該團隊的下一個挑戰是看看專爲邊緣推理而設計的 NorthPole 是否適用於數據中心的語言模型。一開始,這似乎是一項艱鉅的任務,因爲 LLM 不適合 NorthPole 的片上內存。

爲了應對挑戰,該團隊選擇在 16 卡 NorthPole 設置上運行 30 億參數的 Granite LLM。他們將 14 個變壓器層映射到每張卡上,並將輸出層映射到其餘兩張卡上。LLM 通常受內存帶寬限制,但在這種流水線並行設置中,只需在卡之間移動很少的數據 - PCIe 就足夠了,並且不需要高速網絡。這是存儲模型權重的片上內存和所謂的鍵值 (KV) 緩存的結果,這意味着在生成token時需要在單獨的 PCIe 卡之間傳遞更少的數據。該模型被量化爲 4 位權重和激活,並且量化模型經過微調以匹配準確性。

根據最新實驗的成功,Modha表示,他的團隊目前正致力於構建包含更多北極芯片的單元,並計劃在這些單元上映射更大的模型。

IBM 研究科學家正在致力於開發裝有數百張 NorthPole 卡的服務器機架,以便以比同類基於 GPU 的硬件更快的速度和更低的能耗執行大量推理操作。

儘管新的性能結果具有開創性,但 Modha 相信他的團隊將繼續將前沿技術推向更高水平,以提高 NorthPole 的能源效率,同時降低其延遲。他說,關鍵是在整個垂直堆棧中進行創新。這將需要從頭開始共同設計在下一代硬件上運行的算法,利用技術擴展和封裝,並設想全新的系統和推理設備——他和 IBM 研究部門的其他人目前正在研究這些進步。

參考鏈接

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論