エヌビディアの財務報告の前に正確な狙撃？このユニコーンはAIの推論に力強く参入し、HBMを使用せずに世界最速を実現しています

cls.cn · 08/28 02:24

①Cerebras基于其自己的芯片计算系统发布了号称世界上速度最快的AI推理服务；②Cerebras将内存直接内置在巨大的芯片中，从而拥有巨大的片上内存和极高的内存带宽。

《科创板日报》8月28日讯（编辑朱凌）当地时间周三盘后，英伟达即将公布整个二级市场的最后一份重磅二季报，全球投资者因此高度紧张。而就在前一天（当地时间8月27日），美国人工智能处理器芯片独角兽Cerebras Systems基于其自己的芯片计算系统发布了号称世界上速度最快的AI推理服务，声称比使用英伟达H100 GPU构建的系统快十到二十倍。

目前，英伟达GPU在AI训练和推理两方面都占据着市场主导地位。Cerebras自2019年推出首款AI芯片以来，一直专注销售AI芯片和计算系统，致力于在AI训练领域挑战英伟达。

根据美国科技媒体The Information的报道，得益于AI推理服务，OpenAI今年收入预计将达到34亿美元。既然AI推理的蛋糕这么大，Cerebras联合创始人兼首席执行官安德鲁·费尔德曼表示，Cerebras也要在AI市场上占据一席之地。

Cerebras这次推出AI推理服务不仅开启了AI芯片和计算系统之外，基于使用量的第二收入曲线，更是发起了对英伟达的全面进攻。“从英伟达手中抢走足够让他们生气了的市场份额。”费尔德曼如是说。

又快又便宜

Cerebras的AI推理服务在速度和成本上均表现出显著优势。据费尔德曼介绍，以每秒可输出的token数量来衡量，Cerebras的AI推理速度是微软Azure、亚马逊AWS等云服务商运行的AI推理服务的20倍。

费尔德曼在发布会现场同时启动了Cerebras与亚马逊AWS的AI推理服务，Cerebras可以瞬间完成推理工作并输出，处理速度达到每秒1832个tokens，而AWS需要几秒钟才能完成输出，处理速度仅为每秒93个tokens。

费尔德曼称，更快的推理速度意味着，可以实现实时交互式语音回答，或通过调用多轮结果、更多外部来源、更长文档，从而获得更准确、更相关的回答，给AI推理带来质的飞跃。

除了速度优势外，Cerebras还有巨大的成本优势。费尔德曼表示，Cerebras的AI推理服务性价比是AWS等的100倍。以运行Meta的Llama 3.1 70B开源大型语言模型为例，该服务的价格为每个token仅需60美分，而一般云服务商提供的相同服务每个令牌价格为2.90美元。

目前最大GPU面积的56倍

Cerebras的AI推理服务又快又便宜的原因在于其WSE-3芯片的设计。这是Cerebras今年3月推出的第三代处理器芯片，它的尺寸巨大，几乎相当于一个12英寸半导体晶片的整个表面，或者说比一本书还要大，单体面积达到约462.25平方厘米。它是目前最大GPU面积的56倍。

WSE-3芯片没有像英伟达那样采用需要通过接口连接才能访问的独立高带宽存储器（HBM）。相反，它将内存直接内置在芯片中。

得益于芯片尺寸，WSE-3的片上存储器（On-chip memory）高达44G，几乎是英伟达H100的900倍，内存带宽是英伟达H100的7000倍。

费尔德曼表示，内存带宽是限制语言模型推理性能的根本因素。而Cerebras将逻辑和内存整合到一个巨型芯片中，拥有巨大的片上内存和极高的内存带宽，可以快速地处理数据并产生推理结果。“这是GPU不可能达到的速度。”

除了速度和成本优势外，WSE-3芯片还是AI训练和推理两面手，在处理各种AI任务时都具有卓越的性能。

根据计划，Cerebras将在多个地点建立AI推理数据中心，并将按请求次数对推理能力收费。同时，Cerebras还将向尝试向云服务商出售基于WSE-3的CS-3计算系统。

①Cerebrasは独自のチップ計算システムに基づいて、世界最速のAI推論サービスを提供しました。②Cerebrasは巨大なチップに直接メモリを組み込むことで、大規模なオンチップメモリと非常に高いメモリ帯域幅を持っています。

《科創板日報》8月28日、エディター朱凌による報道。米国時間水曜日の市場後、英伟达がセカンダリマーケット全体の重要な四半期報告書を公表し、世界中の投資家は非常に緊張しています。前日（米国時間8月27日）、AIプロセッサチップのユニコーンCerebras Systemsは、独自のチップ計算システムに基づいて、世界最速のAI推論サービスを提供し、英伟达H100 GPUを使用したシステムよりも10〜20倍高速であると主張しています。

現在、英伟达GPUはAIトレーニングと推論の両方で市場をリードしています。Cerebrasは2019年に最初のAIチップをリリース以来、AIチップと計算システムの販売に特化し、AIトレーニングの領域で英伟达に挑戦してきました。

米国のテクノロジーメディアThe Informationによると、AI推論サービスのおかげで、OpenAIの今年の収益は34億ドルに達すると予想されています。AI推論市場が非常に大きいため、Cerebrasの共同創設者兼CEOであるアンドリュー・フェルドマンは、CerebrasもAI市場で一定の地位を確保すると述べています。

CerebrasのAI推論サービスの導入は、AIチップおよび計算システム以外の、使用量ベースの第2の収益曲線を開始し、英伟达に対する包括的な攻撃を開始しました。「英伟达から十分に市場シェアを奪いました。」とフェルドマンは述べています。

速くて安い

CerebrasのAI推論サービスは、速度とコストの両面で著しい優位性を発揮しています。フェルドマンによると、1秒あたりに出力できるトークン数で見ると、CerebrasのAI推論速度は、マイクロソフトAzure、アマゾンドットコムなどのクラウドコンピューティングサービスが実行中のAI推論サービスの20倍です。

フェルドマンは記者会見で、同時にCerebrasとアマゾンドットコムのAI推論サービスの起動を行いました。Cerebrasは瞬時に推論作業を完了し、出力、処理速度は1秒あたり1832のトークンに達し、アマゾンドットコムは数秒かかって出力を完了し、処理速度は1秒あたり93のトークンです。

フェルドマンは、より高速な推論速度は、リアルタイムのインタラクティブな音声回答を実現したり、複数の結果や外部情報源、長い文書を呼び出すことで、より正確で関連性の高い回答を得ることができることを意味し、AI推論に質的な飛躍をもたらします。

速度の優位性に加えて、Cerebrasには大幅なコストの利点もあります。フェルドマンは、CerebrasのAI推論サービスのコストパフォーマンスはAWSなどの100倍だと述べています。例えば、MetaのLlama 3.1 70Bオープンソースの大規模言語モデルを実行する場合、このサービスの価格はトークン当たりわずか60セントであり、一般的なクラウドサービスプロバイダーが提供する同じサービスのトークン価格は2.90ドルです。

現在の最大のGPU面積の56倍です。

CerebrasのAI推論サービスが高速でコスト効果が良い理由は、WSE-3チップの設計にあります。これはCerebrasが今年3月に発売した第3世代のプロセッサチップで、非常に大きなサイズであり、ほぼ12インチの半導体チップの表面全体に相当するか、あるいは本よりも大きく、単体の面積は約462.25平方センチメートルになります。これは現在の最大のGPU面積の56倍です。

WSE-3チップは、NVIDIAのようにインターフェース接続を介してアクセスする必要がある独立した高帯域幅のメモリ（HBM）を使用していません。代わりに、メモリを直接チップに内蔵しています。

チップのサイズのおかげで、WSE-3のチップ上メモリ（On-chip memory）は44Gに達し、NVIDIA H100の900倍であり、メモリ帯域幅はNVIDIA H100の7000倍です。

フェルドマンは、言語モデルの推論性能を制限するメモリ帯域幅が根本的な要素であると述べた。Cerebrasは論理とメモリを1つの巨大なチップに統合し、大容量のオンチップメモリと非常に高いメモリ帯域幅を持ち、データを迅速に処理して推論結果を生成できます。GPUでは到達できない速度です。

速度とコストの利点に加えて、WSE-3チップはAIのトレーニングと推論の両方に優れた性能を持っています。さまざまなAIタスクを処理する際に優れた性能を発揮します。

計画によると、Cerebrasは複数の場所にAI推論のためのデータセンターを設立し、推論能力に基づいて料金を請求します。同時に、CerebrasはWSE-3ベースのCS-3コンピューティングシステムをクラウドサービスプロバイダーに販売する試みも行います。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。更に詳しい情報

英伟达财报前精准狙击？这家独角兽强势进军AI推理 不用HBM做到世界最快

エヌビディアの財務報告の前に正確な狙撃？このユニコーンはAIの推論に力強く参入し、HBMを使用せずに世界最速を実現しています

リスク免責事項

免責事項

英伟达财报前精准狙击？这家独角兽强势进军AI推理不用HBM做到世界最快