Raymond Jamesのアナリスト、Srini Pajjuri氏が週末にクライアントに送ったノートには、『DeepSeekの革新が広く採用されれば、米国のハイパースケーラーでもモデルトレーニングコストが大幅に削減される可能性があり、一部で予測されている100万XPU/GPUクラスターの必要性に疑問が生じる可能性があります』と記されています。
In a post titled "The Short Case for Nvidia Stock," former quant investor and current Web3 entrepreneur Jeffrey Emanuel said DeepSeek's success "suggests the entire industry has been massively over-provisioning compute resources."
He added that "markets eventually find a way around artificial bottlenecks that generate super-normal profits," meaning that Nvidia may face "a much rockier path to maintaining its current growth trajectory and margins than its valuation implies."
Nvidia, for its part, called DeepSeek "an excellent AI advancement," while saying it represented "a perfect example of test-time scaling," which means more computation is done during the inferencing phase.
"DeepSeek's work illustrates how new models can be created using that technique, leveraging widely available models and compute that is fully export-control compliant," an Nvidia spokesperson said. "Inference requires significant numbers of Nvidia GPUs and high-performance networking."
It's also worth digging into the numbers that have Wall Street so worried. Specifically, there's consternation about a paper that suggested DeepSeek's creator spent $560万 to build the model. By contrast, large technology companies in the U.S. are shelling out tens of billions of dollars a year on capital expenditures and earmarking much of that for AI infrastructure.
The $500万 number, though, is highly misleading, according to Bernstein analyst Stacy Rasgon. "Did DeepSeek really 'build OpenAI for $5M?' Of course not," he wrote in a note to clients over the weekend.
That number corresponds to DeepSeek-V3, a "mixture-of-experts" model that "through a number of optimizations and clever techniques can provide similar or better performance vs other large foundational models but requires a small fraction of the compute resources to train," according to Rasgon.
But the $500万 figure "does not include all the other costs associated with prior research and experiments on architectures, algorithms, or data," he continued, adding that this type of model is designed "to significantly reduce cost to train and run, given that only a portion of the parameter set is active at any one time."
一方、DeepSeekにはR1モデルもあり、Rasgonによると、OpenAIのo1モデルとの比較によって「ほとんどの苦悩を引き起こしているようです」。 彼は、「DeepSeekのR1論文は、R1モデルの開発に必要な追加リソースを数量化していませんでした(おそらく、それらはかなり大きかったでしょう)」と述べています。
それでも、彼は、「DeepSeekの価格設定は競合他社からはるかに割引されており、同等のモデルの価格を20〜40倍安く設定しています」と考えています。
しかし、彼は、半導体企業にとってこれが「終末」となる状況ではないとは考えていません。「私たちはまだ多くのチップが必要であり、得るでしょう」と述べています。
Cantor FitzgeraldのC.J. Museも希望を見出しています。「革新により採用コストが下がり、AIが普及している」と述べています。「時間とともに、より多くのコンピューティングリソースが必要になるという必要性に対するこの進歩をポジティブに考えています(少なくなるわけではありません)。」
数人のアナリストは、Jevonsの逆説に言及しています。それは、効率の向上が特定のリソースの消費を増やす可能性があるというものです。「加速されたハードウェアの消費を減少させるのではなく、このJevonsの逆説的なダイナミックが、実際にはより多くの消費と計算リソースの普及につながるはずであると考えています。より影響力のあるユースケースが引き続き解かれるにつれて」と、TD CowenのJoshua Buchalterは述べています。
レイモンド・ジェームズのパジュリも慌てていなかったと書いており、DeepSeekが「米国のハイパースケーラーの間で、彼らの主な優位性(GPUへのアクセス)を活用して安価な代替品から距離を置くためのさらなる緊急性を促進する」可能性があると述べています。
さらに、DeepSeekの懸念がトレーニングコストに集中している一方で、パジュリは投資家が推論についても考えるべきだと考えています。トレーニングは、モデルにデータを示して、結論を導き出す方法を学ばせるプロセスであり、推論は、新しいデータに基づいてそのモデルを機能させるプロセスです。
パッジュリは「トレーニングコストが低下するにつれて、より多くの人工知能のユースケースが出現し、推論において大幅な成長を促す可能性がある」と主張しました。これには、DeepSeekのR1やOpenAIのo1のようなモデルが含まれます。
エマニュエルは、DeepSeekがトレーニング側で人気のある米国モデルよりも「ほぼ50倍の計算効率」を持っていると言われており、推論に関してはさらにその効率が高いかもしれないと書きました。
jun2x : 彼らは長くは持たないでしょう、$145に戻るでしょう。