速度は両刃の剣です
AI業界で炎上し、インターネットを席巻している!
Groqは最近、話題を呼び、その大規模なモデルは、秒間750個のトークンを出力することができ、GPT-3.5より18倍速いです。自社開発のLPU推論速度はNVidiaのGPUの10倍です。
驚くほど速いスピードです。
Groqの名前は、マスクの大型モデルのGrokの発音に似ています。2016年に設立され、人工知能ソリューション企業を目指しています。
Groqが注目を集める主な理由は、非常に高速な処理速度にあります。報道によると、同社のチップの推論速度はNVidiaのGPUの10倍であり、コストはNVidiaの1/10です。
実行中の大規模モデルの生成速度は秒間500トークンに近く、GPT-3.5の約40トークン/秒の速度を圧倒しています。
最大で、GroqのLlama2 7Bは秒間750トークンを実現し、GPT-3.5の18倍の速度です。
Groqの創業チームのうち8人がGoogleの早期のTPUコア設計チームから来ていますが、GroqはTPU、GPU、CPUなどの路線を選択せず、自社の言語処理ユニット(LPU)を自社開発しました。
Groqの公式サイトによると、Groq LPU推論エンジンで動作するMeta AIのLlama 2 70Bは、すべての他のクラウドベースの推論プロバイダーよりも性能が向上し、スループットが18倍に向上しています。
NVidiaを代替できるか?
しかし、速度はAIの発展において唯一の決定的な要因ではありません。Groqが炎上している一方で、懐疑的な声もあります。
まず、Groqは単に安っぽく見えるという点があります。GroqのLPUカードはわずか230MBのメモリしか持たず、2万ドル以上の価格が付けられています。
ネットユーザーによる分析では、NVidia H100のコストパフォーマンスはGroqの11倍でなければならないとされています。
さらに重要なのは、Groq LPUは、高帯域幅メモリ(HBM)をすべて装備していないことです。代わりに、超高速な静的ランダムアクセスメモリ(SRAM)の小さな部分のみを装備しています。このSRAMの速度は、HBM3よりも20倍速いです。
これは、NVidiaのH200と比較して、単一のAIモデルを実行する場合、より多くのGroq LPUが必要になることを意味します。
また、Groqの社員が明らかにしたところによると、GroqのLLMは数百のチップで実行中です。
それに対して、テンセントのチップの専門家である姚金鑫氏は、Groqのチップは現在、エヌビディアを置き換えることはできません。
彼は、速度がGroqの二刃剣だと考えています。Groqのアーキテクチャは、小さなメモリに基づく大規模な計算力に基づいて構築されているため、処理されるコンテンツが限られているため、非常に高速に動作します。
一方、Groqの非常に高い速度は、非常に限られた単一のスループット能力に基づいて構築されているため、H100と同じスループット量を確保するためには、より多くのカードが必要です。
彼は、Groqのようなアーキテクチャには、頻繁にデータを転送する必要があるシーンにとって、その利点を十分に発揮できるアプリケーションの場面があると分析しています。