生成モデルAIは次のブームになる可能性があります：TTTモデル

支持Sora等模型的Transformers架构“大脑”是查找表、所谓隐藏状态。不同与Transformers，TTT不会随着处理更多数据而不断增长，它用机器学习模型取代隐藏状态，就像AI的嵌套娃娃，是一个模型中的模型。

下一代生成式人工智能（AI）的焦点可能是简称TTT的测试时间训练模型。

Transformers 架构是 OpenAI 视频模型 Sora 的基础，也是 Anthropic 的 Claude、谷歌的 Gemini 和 OpenAI旗舰模型GPT-4o 等文本生成模型的核心。但现在，这些模型的演进开始遇到技术障碍，尤其是与计算相关的障碍。因为Transformers 在处理和分析大量数据方面并不是特别高效，至少在现成的硬件上运行是这样。企业为了满足Transformers 的需求建设和扩展基础设施，这导致电力需求急剧增加，甚至可能无法持续满足需求。

本月斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和 Meta 的研究人员联合发布，他们耗时一年半开发了TTT架构。研究团队称，TTT 模型不仅可以处理比 Transformers 多得多的数据，而且不会消耗像Transformers那么多的计算电力。

为什么外界认为TTT模型相比Transformers更有前途？首先需要了解，Transformers 的一个基本组成部分是“隐藏状态”，它本质上是一个很长的数据列表。当 Transformer 处理某些内容时，它会将条目添加到隐藏状态，以便“记住”刚刚处理的内容。例如，如果模型正在处理一本书，隐藏状态值将是单词（或单词的一部分）的呈现形式。

参与前述TTT 研究的斯坦福大学博士后Yu Sun最近对媒体解释说，如果将Transformer 视为一个智能实体，那么查找表、它的隐藏状态就是 Transformer 的大脑。这个大脑实现了 Transformer 众所周知的一些功能，例如情境学习。

隐藏状态帮助 Transformers变得强大，但它也阻碍了Transformers的发展。比如Transformers 刚刚阅读了一本书，为了“说”出关于这本书中的哪怕一个字，Transformers 模型都必须扫描整个查找表，这种计算要求相当于重读整本书。

因此，Sun和TTT的其他研究人员想到，用机器学习模型取代隐藏状态——就像 AI 的嵌套娃娃，也可以说是一个模型中的模型。与 Transformers 的查找表不同，TTT 模型的内部机器学习模型不会随着处理更多数据而不断增长。相反，它将处理的数据编码，处理为被称为权重的代表性变量，这就是 TTT 模型高性能的原因。无论 TTT 模型处理多少数据，其内部模型的大小都不会改变。

Sun认为，未来的 TTT 模型可以高效处理数十亿条数据，从单词到图像、从录音到视频。这远远超出了现有模型的能力。TTT的系统可以对一本书说 X 个字，却不需要做重读这本书 X 遍的复杂计算。“基于 Transformers 的大型视频模型、例如 Sora，只能处理 10 秒的视频，因为它们只有一个查找表‘大脑’。我们的最终目标是开发一个系统，可以处理类似于人类生活中视觉体验的长视频。”

TTT 模型最终会取代 transformers吗？媒体认为，有这个可能，但现在下结论为时过早。TTT 模型现在并不是Transformers的直接替代品。研究人员只开发了两个小模型进行研究，因此目前很难将 TTT 与一些大型 Transformers模型实现的结果进行比较。

并未参与前述TTT研究的伦敦国王学院信息学系高级讲师 Mike Cook评论称，TTT是一项非常有趣的创新，如果数据支持它能提高效率的观点，那是个好消息，但他无法告诉判断，TTT是否比现有的架构更好。Cook说，他读本科的时候，有一位老教授经常讲一个笑话：你如何解决计算机学中的任何问题？再添加一个抽象层。在神经网络中添加一个神经网络就让他想起了这个笑话的解答。

SoraなどのモデルをサポートするTransformersアーキテクチャの「脳」とは、ルックアップテーブル、いわゆる隠れ状態です。Transformersとは異なり、TTTはデータを処理するたびに増加せず、機械学習モデルで隠れ状態を置き換えることで、アートのネスティング人形のように、モデル内の別のモデルになります。

Next Generation Generative Artificial Intelligence（AI）の焦点は、テスト時間トレーニング（TTT）モデルと呼ばれる可能性があります。

Transformersアーキテクチャは、OpenAIのビデオモデルSoraの基盤であり、AnthropicのClaude、GoogleのGemini、OpenAIのフラグシップモデルGPT-4o、およびその他のテキスト生成モデルの核心です。ただし、これらのモデルの進化には技術的な障壁があり、特にコンピュータに関連する障壁があります。Transformersは大量のデータを処理および分析することには特に効率的ではなく、少なくとも現行のハードウェア上の実行ではそうではありません。会社はTransformersのニーズを満たすためにインフラストラクチャを構築および拡張するため、電力需要が急増し、需要を満たすことができなくなる可能性があります。

スタンフォード大学、カリフォルニア大学サンディエゴ校、カリフォルニア大学バークレー校、Metaの研究者たちは、1年半かけてTTTアーキテクチャを開発し、今月リリースしました。研究チームによると、TTTモデルはTransformersよりもはるかに多くのデータを処理でき、Transformersよりも多くの計算電力を消費しないと述べています。

なぜ外部では、Transformersと比較してTTTモデルがより有望と考えられているのでしょうか？まず、Transformersの基本構成要素の1つは「隠れ状態」であり、本質的には非常に長いデータリストです。 Transformerが特定の内容を処理するとき、隠れ状態にエントリを追加して、さきほど処理した内容を「覚えておく」必要があります。たとえば、モデルが書籍を処理している場合、隠れ状態値は単語（または単語の一部）の表現方法になります。

前述のTTT研究に参加したスタンフォード大学のポスドクYu Sun氏は最近、メディアに向かって「Transformersを知的実体と見なした場合、その隠れ状態、つまりその脳ということになります。この脳は、Transformersのいくつかの機能、例えばシチュエーション学習を実現しています。」と説明しています。

隠れ状態はTransformersを強力にする一方、Transformersの発展を妨げることもあります。たとえば、Transformersが書籍を読み込んだ直後、この書籍に関する1つの文字を「言う」ために、Transformersモデルはサブテーブル全体をスキャンする必要があります。この種の計算は、本全体を再読する必要があるほどのものです。

そのため、SunとTTTの他の研究者たちは、機械学習モデルを隠れ状態の代わりに使用することを考案しました。AIのネスティング人形のように、機械学習モデルは別のモデル内にあります。Transformersのルックアップテーブルとは異なり、TTTモデルの内部機械学習モデルは、より多くのデータを処理するたびに増加しません。代わりに、処理されたデータを符号化し、重みと呼ばれる代表的な変数に変換します。これがTTTモデルの高性能の原因です。TTTモデルが処理するデータの量に関係なく、内部モデルのサイズは変わりません。

太陽は、将来的にはTTTモデルが数十億のデータ、単語から画像、音声からビデオまで高効率に処理できると考えています。これは、現在のモデルの能力をはるかに超えるものです。 TTTシステムは、書籍ごとにX文字を言いながら、書籍全体を何度も読み直す計算を行わずに済みます。『Transformers』の大規模ビデオモデル（例えばSora）は、10秒のビデオしか処理できず、1つのルックアップテーブル「脳」しか持っていないため、将来の目標は、人間のビジュアルエクスペリエンスに似た長時間のビデオを処理できるシステムを開発することです。

TTTモデルはTransformersを置き換えますか？メディアはそれが可能性があると考えていますが、結論を出す時期はまだ早いです。 TTTモデルは現在、Transformersの直接の代替品ではありません。研究者は、比較的小さなTTTモデルを開発したため、現在、いくつかの大型Transformersモデルが応用した場合の結果をTTTと比較するのは困難です。

前述のTTT研究に参加していないロンドン・キングス・カレッジ情報学部の上級講師のマイク・クック氏は、TTTは非常に興味深い革新であり、データがこの視点での高効率化を支持できる場合、それは素晴らしいニュースですが、既存のアーキテクチャより優れているのかどうかは彼にはわかりませんでした。Cookは、彼が大学で学んでいたとき、教授がよくジョークを言っていたと言いました。「コンピュータサイエンスのどんな問題でも解決するには、抽象レイヤーをさらに追加してください。神経ネットワークに神経ネットワークを追加することは、そのジョークの答えを思い出させます。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。更に詳しい情報

生成式AI可能迎来下一个风口：TTT模型

生成モデルAIは次のブームになる可能性があります：TTTモデル

リスク免責事項

ご利用明細