Cerebras Inference delivers 2,100 tokens/second for Llama 3.2B 70B -- 16X performance of the fastest GPUs and 68x faster than hyperscale clouds
SUNNYVALE, Calif.--(BUSINESS WIRE)--Today, Cerebras Systems, the pioneer in high performance AI compute, smashed its previous industry record for inference, delivering 2,100 tokens/second performance on Llama 3.2 70B. This is 16x faster than any known GPU solution and 68x faster than hyperscale clouds as measured by Artificial Analysis, a third-party benchmarking organization. Moreover, Cerebras Inference serves Llama 70B more than 8x faster than GPUs serve Llama 3B, delivering an aggregate 184x advantage (8x faster on models 23 x larger). By providing Instant Inference for large models, Cerebras is unlocking new AI use cases powered by real-time, higher quality responses, chain of thought reasoning, more interactions and higher user engagement.
"The world's fastest AI inference just got faster. It takes graphics processing units an entirely new hardware generation -- two to three years- - to triple their performance. We just did it in a single software release," said Andrew Feldman, CEO and co-founder, Cerebras. "Early adopters and AI developers are creating powerful AI use cases that were impossible to build on GPU-based solutions. Cerebras Inference is providing a new compute foundation for the next era of AI innovation."
From global pharmaceutical giants like GlaxoSmithKline (GSK), to pioneering startups like Audivi, Tavus, Vellum and LiveKit, Cerebras is eliminating AI application latency with 60x speed-ups:
- GSK: "With Cerebras' inference speed, GSK is developing innovative AI applications, such as intelligent research agents, that will fundamentally improve the productivity of our researchers and drug discovery process," said Kim Branson, SVP of AI and ML, GSK.
- LiveKit: "When building voice AI, inference is the slowest stage in your pipeline. With Cerebras Inference, it's now the fastest. A full pass through a pipeline consisting of cloud-based speech-to-text, 70B-parameter inference using Cerebras Inference, and text-to-speech, runs faster than just inference alone on other providers. This is a game changer for developers building voice AI that can respond with human-level speed and accuracy," said Russ d'Sa, CEO of LiveKit.
- Audivi AI: "For real-time voice interactions, every millisecond counts in creating a seamless, human-like experience. Cerebras' fast inference capabilities empower us to deliver instant voice interactions to our customers, driving higher engagement and expected ROI," said Seth Siegel, CEO of Audivi AI.
- Tavus: "We migrated from a leading GPU solution to Cerebras and reduced our end-user latency by 75%," said Hassan Raza, CEO of Tavus.
- Vellum: "Our customers are blown away with the results! Time to completion on Cerebras is hands down faster than any other inference provider and I'm excited to see the production applications we'll power via the Cerebras inference platform," Akash Sharma, CEO of Vellum.
Cerebras is gathering the llama community in llamapalooza NYC, a developer event that will feature talks from meta, Hugging Face, LiveKit, Vellum, LaunchDarkly, Val.town, Haize Labs, Crew AI, Cloudflare, South Park Commons, and Slingshot.
Cerebras Inference is powered by the Cerebras CS-3 system and its industry-leading AI processor, the Wafer Scale Engine 3 (WSE-3). Unlike graphic processing units that force customers to make trade-offs between speed and capacity, the CS-3 delivers best in class per-user performance while delivering high throughput. The massive size of the WSE-3 enables many concurrent users to benefit from blistering speed. With 7,000x more memory bandwidth than the Nvidia H100, the WSE-3 solves Generative AI's fundamental technical challenge: memory bandwidth. Developers can easily access the Cerebras Inference API, which is fully compatible with the OpenAI Chat Completions API, making migration seamless with just a few lines of code.
Cerebras Inference is available now, at a fraction of the cost of hyperscale and GPU clouds. Try Cerebras Inference today: .
About Cerebras Systems
Cerebras Systems is a team of pioneering computer architects, computer scientists, deep learning researchers, and engineers of all types. We have come together to accelerate generative AI by building from the ground up a new class of AI supercomputer. Our flagship product, the CS-3 system, is powered by the world's largest and fastest AI processor, our Wafer-Scale Engine-3. CS-3s are quickly and easily clustered together to make the largest AI supercomputers in the world, and make placing models on the supercomputers dead simple by avoiding the complexity of distributed computing. Cerebras Inference, powered by Wafer-Scale Engine 3, delivers breakthrough inference speeds, empowering customers to create cutting-edge AI applications. Leading corporations, research institutions, and governments use Cerebras solutions for the development of pathbreaking proprietary models, and to train open-source models with millions of downloads. Cerebras solutions are available through the Cerebras Cloud and on premise. For further information, visit or follow us on LinkedIn or X.
Contacts Press Contact:
PR@zmcommunications.com
Cerebras Inferenceは、最速のGPUの16倍の性能と、ハイスケールクラウドよりも68倍高速な2,100トークン/秒をLlama 32億700億で提供します。
カリフォルニア州サニーベール--(BUSINESS WIRE)--本日、高性能AIコンピューティングのパイオニアであるCerebras Systemsは、前回の推論業界記録を打ち破り、Llama 3.2 700億で2,100トークン/秒のパフォーマンスを提供しました。これは、既知のGPUソリューションの16倍速く、第三者のベンチマーキング組織である人工解析によって計測されたハイスケールクラウドよりも68倍速いです。さらに、Cerebras Inferenceは、Llama 700億に対してGPUがLlama 30億を提供する速さの8倍以上高速で、集計では184倍の利点 (モデルが23倍大きい際に8倍速い) を提供しています。大規模モデル用のインスタント推論を提供することで、Cerebrasはリアルタイムでより高品質なレスポンス、思考の連鎖推論、より多くの相互作用、およびユーザーエンゲージメントが高まるAIの新しいユースケースを開拓しています。
"世界最速のAI推論がさらに高速化しました。グラフィックス処理ユニットは、性能を3倍にするには新しいハードウェア世代---2〜3年---が必要です。私たちはソフトウェアリリース1回でそれを実現しました。"とCerebrasのCEO兼共同創業者のアンドリュー・フェルドマン氏は述べています。"早期採用企業とAI開発者は、GPUベースのソリューションでは実現不可能だった強力なAIユースケースを作成しています。Cerebras Inferenceは、次世代のAIイノベーションのための新しいコンピュート基盤を提供しています。"
グラクソ・スミスクライン(GSK)などの世界的な製薬大手からAudivi、Tavus、Vellum、LiveKitなどのパイオニア的なスタートアップまで、CerebrasはAIアプリケーションの遅延を60倍高速化しています。
- GSK:「Cerebrasの推論速度により、GSKは研究者と医薬品探索プロセスの生産性を根本的に向上させるようなインテリジェントな研究エージェントなど、革新的なAIアプリケーションを開発しています」とGSKのAIおよびMLシニアバイスプレジデントのキム・ブランソン氏は述べています。
- LiveKit:「音声AIを構築する際、推論はパイプライン内の最も遅い段階です。Cerebras Inferenceを使用すると、これが最速になります。クラウドベースの音声テキスト変換、Cerebras Inferenceを使用した700億個のパラメーター推論、およびテキスト読み上げを含むパイプライン全体の通過は、他のプロバイダの推論単独よりも速く実行されます。これは、ヒトレベルの速度と精度で応答できる音声AIを構築する開発者にとって画期的な変化です。」とLiveKitのCEOラス・ヴィーサ氏は述べています。
- Audivi AI:"リアルタイムの音声インタラクションでは、ミリ秒単位でシームレスで人間らしい体験を創造することが重要です。Cerebrasの高速推論機能により、当社は顧客に即座の音声インタラクションを提供することができ、エンゲージメントを高め、期待されるROIをもたらします。」とAudivi AIのCEO、セス・シーゲルは述べています。
- Tavus:「私たちはトップクラスのgpuソリューションからCerebrasに移行し、エンドユーザーの待機時間を75%削減しました。」とTavusのCEO、ハサン・ラザは述べています。
- Vellum:「当社の顧客はその結果に驚かれています!Cerebras上の完了時間は、他の推論プロバイダーよりもずば抜けて早く、Cerebras推論プラットフォームを介して可能にする製品アプリケーションに期待しています。」とVellumのCEO、アカシュ・シャルマは述べています。
Cerebrasは、llamapalooza NYCでllamaコミュニティを集める開発者イベントを開催します。メタ、Hugging Face、LiveKit、Vellum、LaunchDarkly、Val.town、Haize Labs、Crew AI、Cloudflare、South Park Commons、およびSlingshotからのトークが予定されています。
Cerebras推論はCerebrasのCS-3システムと業界をリードするAIプロセッサ、Wafer Scale Engine 3(WSE-3)によって動作しています。速度と容量の間で取引を行わせるgpuに対し、CS-3はユーザーごとの最高クラスのパフォーマンスを提供しながら、高いスループットを実現しています。WSE-3の大きなサイズにより、多くの同時ユーザーが驚くほどの速度を利用できます。Nvidia H100よりも7,000倍のメモリバンド幅を持つWSE-3は、Generative AIの根本的な技術的課題であるメモリバンド幅を解決します。開発者はCerebras推論APIに簡単にアクセスでき、OpenAI Chat Completions APIと完全に互換性があり、わずか数行のコードで移行をシームレスに実行できます。
Cerebras推論は、ハイパースケールやGPUクラウドの一部のコストで利用できます。今すぐCerebras推論をお試しください。
Cerebras Systemsについて
Cerebras Systemsは、先駆的なコンピュータアーキテクト、コンピュータサイエンティスト、深層学習研究者、およびさまざまなエンジニアからなるチームです。私たちは、AIを加速させるために、新しいクラスのAIスーパーコンピューターをゼロから構築することに取り組みました。当社の看板製品であるCS-3システムは、世界最大かつ最速のAIプロセッサである当社のWafer-Scale Engine-3によって動作します。CS-3は簡単かつ迅速にクラスター化でき、世界最大のAIスーパーコンピューターを作成し、分散コンピューティングの複雑さを回避することでモデルの配置を簡素化します。Wafer-Scale Engine 3によるCerebras推論は、画期的な推論速度を提供し、顧客が最先端のAIアプリケーションを作成できるよう支援します。世界の大手企業、研究機関、政府機関は、画期的なプロプライエタリモデルの開発および数百万回のダウンロードを誇るオープンソースモデルのトレーニングにCerebrasソリューションを使用しています。Cerebrasソリューションは、Cerebras Cloudおよびオンプレミスで提供されています。詳細については、ウェブサイトをご覧いただくか、LinkedInまたはXでフォローしてください。
連絡先
プレス連絡先:
PR@zmcommunications.com