人工知能初期のスタートアップ企業Cerebrasは、Cerebras Inferenceを今日発表し、これは世界で最も高速な人工知能推論ソリューションとされています。
智通財経APPが報じたところによると、人工知能初期のスタートアップ企業Cerebrasは、Cerebras Inferenceを今日発表し、これは世界で最も高速な人工知能推論ソリューションとされています。同社は、「Cerebras Inferenceは、Llama 3.18Bにつき1800のトークンを秒間提供し、Llama 3.170Bには450のトークンを秒間提供し、英伟达(NVDA.US) GPUに基づく超大規模クラウドよりも20倍速い」と述べています。
Cerebras Inferenceは、第三世代のウェーハスケールエンジンによって駆動され、メモリ帯域障害を除去したため、より高速です。Cerebrasによると、GPUソリューションに比べ、推論コストはマイクロソフトAzureクラウドコンピューティングプラットフォームの3分の1であり、使用電力は同プラットフォームの6分の1とのことです。
同社は、「Cerebrasは世界最大のチップを製造し、そのチップ全体にモデルを格納することで、メモリ帯域ボトルネックを解消しました。」と述べています。「当社独自のウェーハスケール設計により、単一チップに44GBのSRAMを統合でき、外部ストレージおよび外部ストレージとコンピューターを接続する必要性を排除できます。」
人工知能モデルの独立した分析を提供する人工知能分析企業(Artificial Analysis)の共同創設者兼CEOのMicah Hill-Smith氏は、「Cerebrasは人工知能推論基準でリードしています。 CerebrasがMetaのLlama3.18Bおよび70BAIモデルに提供する速度は、GPUに基づくソリューションよりも桁違いに速いです。 Llama3.18Bでは、毎秒1800個の出力トークンを超え、Llama3.170Bでは、毎秒446個の出力トークンを超える速度を計測しました。これらのベンチマークテストの中で新記録を樹立しています。」
彼は、「極めて高速で競争力のある価格を実現することで、Cerebras Inferenceはリアルタイムまたは大容量の要求を持つ人工知能アプリケーションの開発者に特に魅力的です。」
これは人工知能エコシステム全体に連鎖的な影響をもたらす可能性があります。推論が速く、効率的に行われるようになると、開発者は人工知能の限界を乗り越えることができるようになります。以前はハードウェアの制約によって制約されていたアプリケーションは、今後躍進し、以前は不可能と判断されていた革新を生み出す可能性があります。ただし、J. Gold Associatesのアナリスト、ジャック・ゴールド(Jack Gold)氏も、「しかし、より具体的な実証基準と大規模な運営を得る前に、現時点での優位性を評価するのは時期尚早である」と指摘しています。
本月、Cerebrasは初めての株式公開(IPO)申請を提出し、今年の下半期に上場する予定です。この会社は最近、IBM、インテル、テレフォニカで幹部職を務めたグレンダ・ドザック、およびVMwareおよびProofpointの前最高財務責任者であるポール・オーヴィルを新しい取締役会メンバーに任命しました。
この新興企業は、重要な一歩を踏み出し、先月初めにボブ・コミンを最高財務責任者に任命しました。コミンはSunrunの最高財務責任者を務め、同社のIPOプロセスをリードしました。また、Yahooに買収されたFlurryとマイクロソフトが買収したTellmeNetworksでCFOを務めた経験もあります。
CerebrasのCEOで共同創業者のアンドリュー・フェルドマンは、「ボブは職業人生の中で常に重要な運営リーダーであり、いくつかの企業で起業幹部を務め、これらの企業は重要な技術とビジネスモデル革新を実現し、業界のリーダーとして急成長しました。彼の成長期と上場企業での財務リーダーシップ経験は、Cerebrasにとって非常に貴重です。