下給英偉達的新年戰書，「小」芯片公司們喜迎2025年

鈦媒體 · 01/03 16:06

文 | 适道

2025年，有多少人想看英伟达楼塌了？

醒醒，这不太现实。

不过，2025年的AI算力市场或将迎来转变。

一方面，行业重点将从“训练模型”转向“模型推理”，意味着对推理基础设施的需求呈现上升趋势。例如，无论是OpenAI的o1和o3模型，还是Google的Gemini 2.0 Flash Thinking，均以更高强度的推理策略来提升训练后结果。

另一方面，训练好的大模型需要通过AI推理才能落地到各类场景中，随着千行百业的深入采用，AI工作负载格局将发生转变。例如，Open AI创建Sora代表着AI训练，而用户让Sora生成一段视频则代表着一个推理工作负载。

换句话说，大规模训练工作负载是“研发阶段”，推理工作负载是“商业化阶段”，你想在AI领域赚钱，就要扩大推理工作负载。

巴克莱研报显示：目前，AI推理计算需求将快速提升，预计其将占通用人工智能总计算需求的70%以上，推理计算的需求甚至可以超过训练计算需求，达到后者的4.5倍。

2025年，这些演变将为自身“推理”过硬的“小”芯片公司提供发育空间。

这不，别人赶着新年送祝福，而Groq、SambaNova、Positron AI等专注于推理的初创公司则是向霸主英伟达纷纷亮出了虎牙。

一次讲透推理芯片&训练芯片

如果我们将AI训练比作让模型“考驾照”，那么推理就是让模型“上路”。

训练阶段，你要请“教练”（优化算法）“指导”（反向传播和参数调整）模型；推理阶段，“驾驶员”（模型）要基于自己学到的知识技能，灵活应对实际路况。因此，推理阶段只涉及前向传播，通常比训练阶段更高效。

对应到芯片，训练芯片具备更高的计算能力，旨在支持训练过程中的大量计算和数据处理；推理芯片通常靠较少的计算能力完成工作。

问题一：为什么不用传统CPU进行推理？

答：牛也能当交通工具，但速度太慢。

问题二：为什么不继续用GPU做推理任务？

答：直升机也是通勤工具，但成本太高，而且你还得找停机坪。

虽然GPU非常适合实现神经网络的训练工作，但它在延迟、功耗等方面表现不算最佳，留给竞争对手一些遐想空间。

我们都知道，AI推理要求模型在作答前先进行“思考”——“思考”越多，答案越好。然而，模型的“思考”同时也伴随着时间的流逝，以及资金的消耗。

因此，“小”芯片公司的主线任务则变成——优化“思考”所消耗的时间成本，或是资金成本中的任何一项，就能建立自身护城河。

挑战者联盟都说了些啥？

这次放话的挑战者分别是Groq、SambaNova，以及Positron AI。

前二位的名声更大一些。

先说Groq，这家创企由前谷歌TPU核心团队的“8叛将”于2016年创办，平时喜欢在官博“喊麦”，代表作为《Hey Zuck...》《Hey Sam...》《Hey Elon...》等等。

当然，Groq的实力还是不容小觑，其AI推理引擎LPU号称做到了“世界最快推理”，不仅有超快的大模型速度演示，还有远低于GPU的token成本。

2023年7月，Groq甩出了LPU的推理速度，运行Meta的Llama 3 80亿参数大模型，每秒超过1250个token。

2024年12月，Groq推出一款高性能计算芯片，名为“猛兽”（Beast）。据称，这头“猛兽”在AI推理任务中的性能超越英伟达的某些主流GPU；能够通过优化硬件设计，减少不必要的运算环节，大幅提升计算效率。

也正是2024年8月，Groq双喜临门，获得了6.4亿美元D轮融资，估值达28亿美元；其创始人Jonathan Ross请来杨立昆担任技术顾问。

Groq的LPU（线性处理单元）不同于GPU（图形处理单元），设计理念是解决传统架构中外部内存的瓶颈，通过将大量计算资源集中在片内共享内存中，实现数据流动的高效优化，避免外部内存的频繁调用。此外，LPU支持多个张量流处理器的串联扩展，规避了传统GPU集群中因数据交换带来的性能损耗。

对于2025年，Groq首席布道官Mark Heaps喊话：“我希望客户能认识到与现有技术相比的新进展。许多人对我们说，我们喜欢你们的技术，但没人因为选择某家传统供应商而被解雇。如今，市场已经开始变化，人们意识到从传统供应商处获得芯片并不容易，而且性能也未必如Groq的技术那样出色。我希望更多人愿意尝试这些新技术。”

不过，Groq要解决的真正问题是客户总体成本。

虽然创始人Jonathan Ross宣称：LPU速度比英伟达GPU快10倍，但价格和耗电量都仅为后者的十分之一。

但自称“Groq超级粉丝”的原阿里副总裁贾扬清对比了LPU和H100，他的结论却是：用Groq的LPU反而使硬件成本和能耗成本大幅度上升，在运行Llama2- 70b模型时，305张Groq才能等同于8张英伟达H100。

芯片专家姚金鑫也指出，Groq架构建立在小内存（230MB）、大算力上。按照当前对大模型的推理部署，7B模型大约需要14G以上的内存容量，为了部署一个7B的模型，大约需要70张左右。

此前一位自称Groq员工的用户表示，Groq致力于成为最快速的大规模模型硬件，并发誓三年内赶超英伟达。

第二位成员是SambaNova。

SambaNova的创立时间比Groq晚一年，如今却以50亿美元的估值身居AI芯片初创公司榜首。

SambaNova RDU既有GPU 10 倍以上的片上分布SRAM，也有适用于需要快速数据传输的大规模计算任务的HBM。（Groq则是摒弃了HBM，仅依赖SRAM进行计算。）其架构可以自动做到极致的算子融合，达到 90%以上的HBM利用率，使得RDU 对 GPU 有了 2-4 倍的性能优势。

值得一提，SambaNova在业务模式上颇具野心。公司不单卖芯片，而是出售其定制的技术堆栈，从芯片到服务器系统，甚至包括部署大模型。

联创Rodrigo Liang认为，大模型与生成式AI商业化的下一个战场是企业的私有数据，尤其是大企业。最终，企业内部不会运行一个GPT-4或谷歌Gemini那样的超大模型，而是根据不同数据子集创建150个独特的模型，聚合参数超过万亿。

目前，SambaNova已赢得不少大客户，包括世界排名前列的超算实验室，日本富岳、美国阿贡国家实验室、劳伦斯国家实验室，以及咨询公司埃森哲等。

对于2025年，Liang喊话：“对于SambaNova来说，关键是推动从训练到推理的转变。行业正快速迈向实时应用，推理工作负载已成为AI需求的核心。我们的重心是确保技术能够帮助企业高效、可持续地扩展规模。”

“如果我有一根魔法棒，我会解决AI部署中的电力问题。如今，大多数市场仍在使用设计上不适合规模化推理的高耗能硬件，这种方式在经济上和环境上都不可持续。SambaNova的架构已经证明有更好的解决方案。我们能耗仅为传统方案的十分之一，使企业能够在不突破预算或碳排放目标的情况下实现AI目标。我希望市场能更快地接受这种优先考虑效率和可持续性的技术。”

第三位是Positron AI。

Positron成立于2023年4月，名气相对较小。

2023年12月，Positron AI推出了一款推理芯片，声称可以执行与英伟达H100相同的计算，但成本仅为五分之一。

2024年10月，Positron AI还上榜了The information的《2024全球50家最具潜力初创公司榜》。

Positron CEO Thomas Sohmers表示：2024年，AI计算开支的重心已经转向推理，预计这种趋势将沿着“指数增长曲线”继续扩大。

对于2025年，Sohmers喊话：“我认为，如果我们能部署足够多的推理计算能力——从供应链角度看，我有信心能做到——那么通过提供更多专用于推理的计算资源，我们将能够推动‘链式思维’等能力的广泛采用。”

据悉，Positron的愿景是让人人负担得起AI推理。对此，Sohmers的新年愿望是：“我想做同样多的事情来鼓励使用这些新工具来帮助我的妈妈。我进入技术领域的部分原因是因为我希望看到这些工具帮助人们能够利用他们的时间做更多的事情——学习他们想要的一切，而不仅仅是他们从事的工作。我认为降低这些东西的成本将会促进这种扩散。”

结语

面对四面八方的挑战者，英伟达似乎无暇顾及。

前几天，英伟达为推理大模型打造的B300系列出炉——高算力，相比B200在FLOPS上提高50%；大显存，192GB提升到288GB，即提高了50%。

B300将有效地提升大模型的推理性能：每个思维链的延迟更低；实现更长的思维链；降低推理成本；处理同一问题时，可以搜索更多样本，提高模型能力。

根据半导体“牧本周期”——芯片类型有规律地在通用和定制之间不断交替——在某个特定时期内，通用结构最受欢迎，但到达一定阶段后，满足特定需求的专用结构会奋起直追。

当前，英伟达所代表的通用结构时代正处于颠覆。

更何况，英伟达早已全面开花。除了专为云计算、5G电信、游戏、汽车等领域客户构建定制芯片。2025年上半年，英伟达还将发布其最新一代人形机器人芯片Jetson Thor。

所以，最后还是那句话：不要想着干掉英伟达，而是去做英伟达之外的事。

文 | 適道

2025年，有多少人想看英偉達樓塌了？

醒醒，這不太現實。

不過，2025年的AI算力市場或將迎來轉變。

一方面，行業重點將從「訓練模型」轉向「模型推理」，意味着對推理基礎設施的需求呈現上升趨勢。例如，無論是OpenAI的o1和o3模型，還是Google的Gemini 2.0 Flash Thinking，均以更高強度的推理策略來提升訓練後結果。

另一方面，訓練好的大模型需要通過AI推理才能落地到各類場景中，隨着千行百業的深入採用，AI工作負載格局將發生轉變。例如，Open AI創建Sora代表着AI訓練，而用戶讓Sora生成一段視頻則代表着一個推理工作負載。

換句話說，大規模訓練工作負載是「研發階段」，推理工作負載是「商業化階段」，你想在AI領域賺錢，就要擴大推理工作負載。

巴克萊研報顯示：目前，AI推理計算需求將快速提升，預計其將佔通用人工智能總計算需求的70%以上，推理計算的需求甚至可以超過訓練計算需求，達到後者的4.5倍。

2025年，這些演變將爲自身「推理」過硬的「小」芯片公司提供發育空間。

這不，別人趕着新年送祝福，而Groq、SambaNova、Positron AI等專注於推理的初創公司則是向霸主英偉達紛紛亮出了虎牙。

一次講透推理芯片&訓練芯片

如果我們將AI訓練比作讓模型「考駕照」，那麼推理就是讓模型「上路」。

訓練階段，你要請「教練」（優化算法）「指導」（反向傳播和參數調整）模型；推理階段，「駕駛員」（模型）要基於自己學到的知識技能，靈活應對實際路況。因此，推理階段只涉及前向傳播，通常比訓練階段更高效。

對應到芯片，訓練芯片具備更高的計算能力，旨在支持訓練過程中的大量計算和數據處理；推理芯片通常靠較少的計算能力完成工作。

問題一：爲什麼不用傳統CPU進行推理？

答：牛也能當交通工具，但速度太慢。

問題二：爲什麼不繼續用GPU做推理任務？

答：直升機也是通勤工具，但成本太高，而且你還得找停機坪。

雖然GPU非常適合實現神經網絡的訓練工作，但它在延遲、功耗等方面表現不算最佳，留給競爭對手一些遐想空間。

我們都知道，AI推理要求模型在作答前先進行「思考」——「思考」越多，答案越好。然而，模型的「思考」同時也伴隨着時間的流逝，以及資金的消耗。

因此，「小」芯片公司的主線任務則變成——優化「思考」所消耗的時間成本，或是資金成本中的任何一項，就能建立自身護城河。

挑戰者聯盟都說了些啥？

這次放話的挑戰者分別是Groq、SambaNova，以及Positron AI。

前二位的名聲更大一些。

先說Groq，這家創企由前谷歌TPU核心團隊的「8叛將」於2016年創辦，平時喜歡在官博「喊麥」，代表作爲《Hey Zuck...》《Hey Sam...》《Hey Elon...》等等。

當然，Groq的實力還是不容小覷，其AI推理引擎LPU號稱做到了「世界最快推理」，不僅有超快的大模型速度演示，還有遠低於GPU的token成本。

2023年7月，Groq甩出了LPU的推理速度，運行Meta的Llama 3 80億參數大模型，每秒超過1250個token。

2024年12月，Groq推出一款高性能計算芯片，名爲「猛獸」（Beast）。據稱，這頭「猛獸」在AI推理任務中的性能超越英偉達的某些主流GPU；能夠通過優化硬件設計，減少不必要的運算環節，大幅提升計算效率。

也正是2024年8月，Groq雙喜臨門，獲得了6.4億美元D輪融資，估值達28億美元；其創始人Jonathan Ross請來楊立昆擔任技術顧問。

Groq的LPU（線性處理單元）不同於GPU（圖形處理單元），設計理念是解決傳統架構中外部內存的瓶頸，通過將大量計算資源集中在片內共享內存中，實現數據流動的高效優化，避免外部內存的頻繁調用。此外，LPU支持多個張量流處理器的串聯擴展，規避了傳統GPU集群中因數據交換帶來的性能損耗。

對於2025年，Groq首席佈道官Mark Heaps喊話：“我希望客戶能認識到與現有技術相比的新進展。許多人對我們說，我們喜歡你們的技術，但沒人因爲選擇某家傳統供應商而被解僱。如今，市場已經開始變化，人們意識到從傳統供應商處獲得芯片並不容易，而且性能也未必如Groq的技術那樣出色。我希望更多人願意嘗試這些新技術。”

不過，Groq要解決的真正問題是客戶總體成本。

雖然創始人Jonathan Ross宣稱：LPU速度比英偉達GPU快10倍，但價格和耗電量都僅爲後者的十分之一。

但自稱「Groq超級粉絲」的原阿里副總裁賈揚清對比了LPU和H100，他的結論卻是：用Groq的LPU反而使硬件成本和能耗成本大幅度上升，在運行Llama2- 70b模型時，305張Groq才能等同於8張英偉達H100。

芯片專家姚金鑫也指出，Groq架構建立在小內存（230MB）、大算力上。按照當前對大模型的推理部署，7B模型大約需要14G以上的內存容量，爲了部署一個7B的模型，大約需要70張左右。

此前一位自稱Groq員工的用戶表示，Groq致力於成爲最快速的大規模模型硬件，併發誓三年內趕超英偉達。

第二位成員是SambaNova。

SambaNova的創立時間比Groq晚一年，如今卻以50億美元的估值身居AI芯片初創公司榜首。

SambaNova RDU既有GPU 10 倍以上的片上分佈SRAM，也有適用於需要快速數據傳輸的大規模計算任務的HBM。（Groq則是摒棄了HBM，僅依賴SRAM進行計算。）其架構可以自動做到極致的算子融合，達到 90%以上的HBM利用率，使得RDU 對 GPU 有了 2-4 倍的性能優勢。

值得一提，SambaNova在業務模式上頗具野心。公司不單賣芯片，而是出售其定製的技術堆棧，從芯片到服務器系統，甚至包括部署大模型。

聯創Rodrigo Liang認爲，大模型與生成式AI商業化的下一個戰場是企業的私有數據，尤其是大企業。最終，企業內部不會運行一個GPT-4或谷歌Gemini那樣的超大模型，而是根據不同數據子集創建150個獨特的模型，聚合參數超過萬億。

目前，SambaNova已贏得不少大客戶，包括世界排名前列的超算實驗室，日本富嶽、美國阿貢國家實驗室、勞倫斯國家實驗室，以及諮詢公司埃森哲等。

對於2025年，Liang喊話：“對於SambaNova來說，關鍵是推動從訓練到推理的轉變。行業正快速邁向實時應用，推理工作負載已成爲AI需求的核心。我們的重心是確保技術能夠幫助企業高效、可持續地擴展規模。”

“如果我有一根魔法棒，我會解決AI部署中的電力問題。如今，大多數市場仍在使用設計上不適合規模化推理的高耗能硬件，這種方式在經濟上和環境上都不可持續。SambaNova的架構已經證明有更好的解決方案。我們能耗僅爲傳統方案的十分之一，使企業能夠在不突破預算或碳排放目標的情況下實現AI目標。我希望市場能更快地接受這種優先考慮效率和可持續性的技術。”

第三位是Positron AI。

Positron成立於2023年4月，名氣相對較小。

2023年12月，Positron AI推出了一款推理芯片，聲稱可以執行與英偉達H100相同的計算，但成本僅爲五分之一。

2024年10月，Positron AI還上榜了The information的《2024全球50家最具潛力初創公司榜》。

Positron CEO Thomas Sohmers表示：2024年，AI計算開支的重心已經轉向推理，預計這種趨勢將沿着「指數增長曲線」繼續擴大。

對於2025年，Sohmers喊話：「我認爲，如果我們能部署足夠多的推理計算能力——從供應鏈角度看，我有信心能做到——那麼通過提供更多專用於推理的計算資源，我們將能夠推動『鏈式思維』等能力的廣泛採用。」

據悉，Positron的願景是讓人人負擔得起AI推理。對此，Sohmers的新年願望是：“我想做同樣多的事情來鼓勵使用這些新工具來幫助我的媽媽。我進入技術領域的部分原因是因爲我希望看到這些工具幫助人們能夠利用他們的時間做更多的事情——學習他們想要的一切，而不僅僅是他們從事的工作。我認爲降低這些東西的成本將會促進這種擴散。”

結語

面對四面八方的挑戰者，英偉達似乎無暇顧及。

前幾天，英偉達爲推理大模型打造的B300系列出爐——高算力，相比B200在FLOPS上提高50%；大顯存，192GB提升到288GB，即提高了50%。

B300將有效地提升大模型的推理性能：每個思維鏈的延遲更低；實現更長的思維鏈；降低推理成本；處理同一問題時，可以搜索更多樣本，提高模型能力。

根據半導體「牧本週期」——芯片類型有規律地在通用和定製之間不斷交替——在某個特定時期內，通用結構最受歡迎，但到達一定階段後，滿足特定需求的專用結構會奮起直追。

當前，英偉達所代表的通用結構時代正處於顛覆。

更何況，英偉達早已全面開花。除了專爲雲計算、5G電信、遊戲、汽車等領域客戶構建定製芯片。2025年上半年，英偉達還將發佈其最新一代人形機器人芯片Jetson Thor。

所以，最後還是那句話：不要想着幹掉英偉達，而是去做英偉達之外的事。

声明：本內容僅用作提供資訊及教育之目的，不構成對任何特定投資或投資策略的推薦或認可。更多信息

下给英伟达的新年战书，“小”芯片公司们喜迎2025年

下給英偉達的新年戰書，「小」芯片公司們喜迎2025年

一次讲透推理芯片&训练芯片

挑战者联盟都说了些啥？

结语

一次講透推理芯片&訓練芯片

挑戰者聯盟都說了些啥？

結語

風險及免責聲明

聲明