如果您希望可以時常見面,歡迎標星 收藏哦~
來源:內容編譯自techspot,謝謝。
事實證明,如果徹底改變過去 10 年數據中心的建設方式,必然會遇到一些成長的煩惱。雖然頭條新聞都是關於人工智能的崛起,但實際情況卻有很多令人頭疼的問題。
在與系統集成商和其他擴展大型計算系統的人員交談時,我們聽到不斷的抱怨,說大型 GPU 集群難以運行。
主要問題是液體冷卻。GPU 系統運行時會發熱,機架消耗數萬瓦的電力。傳統的空氣冷卻不足,導致液體冷卻系統被廣泛採用。這種轉變推高了部署這些系統的 Vertiv 等公司的股價。
然而,液體冷卻對於數據中心來說仍然相對較新,熟悉安裝液體冷卻的人還不夠多。因此,液體冷卻已成爲數據中心故障的主要原因。造成這種情況的原因有很多,但歸根結底都是因爲水和電子設備不能很好地混合。行業最終會解決這個問題,但這是數據中心正在經歷的成長煩惱的一個典型例子。
配置 GPU 也面臨許多挑戰。這並不奇怪——大多數數據中心專業人員在配置 CPU 方面擁有豐富的經驗,但對於他們中的許多人來說,GPU 是一個陌生的領域。
除此之外,Nvidia 傾向於銷售完整的設計,這帶來了一系列新的複雜因素。例如,Nvidia 的固件和 BIOS 系統並非全新,但它們存在差異且開發不足,導致延遲和異常多的錯誤。再加上 Nvidia 的網絡層,很容易看出這個過程變得多麼令人沮喪。專業人士需要在很短的時間內掌握大量新技術。
從總體上看,這些只是減速帶。這些問題都還不足以阻止人工智能的發展,但在短期內,它們可能會變得更加明顯和引人注目。我們預計超大規模企業將推遲或放慢 GPU 的推出速度,以應對這些挑戰。更準確地說,我們可能會聽到更多關於這些延遲的消息,因爲它們已經開始了。
AMD 最近斥資 50 億美元進軍數據中心
最近我們被問到AMD 收購 ZT Systems背後的邏輯,因爲這和安裝 AI 集群的日益複雜性密切相關,我們可以用 ZT 作爲鏡頭來觀察行業中更廣泛的問題。
假設 Acme Semiconductor 想要進入數據中心市場。他們花費數億美元設計一款處理器。然後他們試圖將其出售給超大規模客戶,但超大規模客戶不想要一塊芯片——他們想要一個可以運行的系統來測試他們的軟件。
因此,Acme 找了一家 ODM(原始設計製造商),花了幾十萬美元設計了一臺可以運行的服務器,包括存儲、電源、冷卻、網絡和其他所有東西。Acme 製造了幾十台這樣的服務器,並將它們分發給他們最有希望的銷售人員。此時,Acme 的損失約爲 100 萬美元,他們發現他們的芯片只佔系統成本的 20%。
然後,超大規模服務器將花費幾個月的時間測試該系統。其中一家公司對 Acme 的性能非常滿意,願意對其進行更嚴格的測試,但他們不想要標準服務器;他們想要專門爲數據中心運營設計的服務器。這意味着服務器設計將採用完全不同的存儲、網絡、冷卻等配置。超大規模服務器還希望 Acme 與他們首選的 ODM 一起構建這些測試系統。
爲了達成交易,Acme 爲這個新設計買單,不過至少超大規模提供商支付了測試系統的費用——Acme 終於有了一些收入,可能是 10 萬美元。當第一個超大規模提供商進行爲期數月的評估時,第二個客戶表示了興趣。當然,他們希望擁有自己的服務器配置和自己喜歡的 ODM。Acme 需要這項業務,因此也承擔了這項設計的費用。
Acme 接觸了所有 OEM,看是否有人願意設計目錄系統來簡化流程。OEM 都非常友好,對 Acme 正在做的事情很感興趣。幹得好,但只有 Acme 獲得更多業務後,他們才會承諾進行設計。
最後,客戶想要批量購買——這對 Acme 來說是一個巨大的勝利。這一次,由於涉及到真正的批量,ODM 同意進行設計。但是,新服務器將使用超大規模服務器內部設計的網絡和安全芯片,這些芯片是保密的。Acme 從未見過它們,對新服務器知之甚少,該服務器是客戶和 ODM 直接設計的。ODM 構建了一堆服務器,然後在超大規模服務器的數據中心內將它們連接起來,打開電源開關,事情立即開始出現問題。
這是意料之中的事,因爲錯誤無處不在。但很快,每個人都開始將問題歸咎於 Acme,而忽略了 Acme 在很大程度上被排除在設計過程之外的事實。他們的芯片是 ODM 和客戶最不熟悉的組件。Acme 在評估週期內與客戶合作解決錯誤,但這次不同。
該系統的大部分都是新的,風險更高,因此每個人都在壓力下工作。Acme 將其現場工程師派往超遠程數據中心親自操作該系統。三個團隊努力解決這些錯誤,並在此過程中發現了更多錯誤。最終,事實證明,Acme 的處理器在與超大規模服務器的安全芯片交互時進入了一種模糊的錯誤模式,網絡組件很脆弱,性能遠低於規格,當然,每個芯片都運行不同的固件,與其他固件不兼容。
最糟糕的是,液體冷卻(調試團隊中沒有人接觸過的東西)可能導致了 50% 的問題。隨着團隊解決問題,部署過程被拖延了。在某個時候,一些重要的東西需要完全更換,這會增加更多的延誤和成本。但經過數月的努力,系統終於投入生產。然後 Acme 的第二個客戶決定他們想要進行更深入的評估,整個過程又重新開始。
如果這聽起來還不夠痛苦的話,我們甚至還沒有提到律師。
爲了啓動該項目,Acme 不得不花費九個月的時間,從非常弱勢的地位與超大規模提供商談判苛刻的條款。在設計定製服務器時,三家公司(Acme、ODM 和客戶)可能花了六週時間談判保密協議。
多年來,服務器一直都是這樣構建的。後來,Nvidia 進入市場,帶來了自己的服務器設計。不僅如此,他們還帶來了整個機架的設計。Nvidia 從事系統設計已有 25 年,最早可以追溯到他們在顯卡方面的工作。他們的團隊還構建了自己的數據中心,因此他們擁有一支經驗豐富的內部團隊來處理所有這些問題。
爲了與 Nvidia 競爭,AMD 可以花五年時間複製 Nvidia 的團隊,也可以收購 ZT。理論上,ZT 可以幫助 AMD 消除上述幾乎所有摩擦。現在判斷這在實踐中效果如何還爲時過早,但 AMD 在合併整合方面已經做得相當不錯了。老實說,我們很樂意支付 50 億美元,以避免再次談判三方保密協議和主服務協議。
參考鏈接