share_log

生成式AI可能迎来下一个风口:TTT模型

生成モデルAIは次のブームになる可能性があります:TTTモデル

wallstreetcn ·  19:52

SoraなどのモデルをサポートするTransformersアーキテクチャの「脳」とは、ルックアップテーブル、いわゆる隠れ状態です。Transformersとは異なり、TTTはデータを処理するたびに増加せず、機械学習モデルで隠れ状態を置き換えることで、アートのネスティング人形のように、モデル内の別のモデルになります。

Next Generation Generative Artificial Intelligence(AI)の焦点は、テスト時間トレーニング(TTT)モデルと呼ばれる可能性があります。

Transformersアーキテクチャは、OpenAIのビデオモデルSoraの基盤であり、AnthropicのClaude、GoogleのGemini、OpenAIのフラグシップモデルGPT-4o、およびその他のテキスト生成モデルの核心です。ただし、これらのモデルの進化には技術的な障壁があり、特にコンピュータに関連する障壁があります。Transformersは大量のデータを処理および分析することには特に効率的ではなく、少なくとも現行のハードウェア上の実行ではそうではありません。会社はTransformersのニーズを満たすためにインフラストラクチャを構築および拡張するため、電力需要が急増し、需要を満たすことができなくなる可能性があります。

スタンフォード大学、カリフォルニア大学サンディエゴ校、カリフォルニア大学バークレー校、Metaの研究者たちは、1年半かけてTTTアーキテクチャを開発し、今月リリースしました。研究チームによると、TTTモデルはTransformersよりもはるかに多くのデータを処理でき、Transformersよりも多くの計算電力を消費しないと述べています。

なぜ外部では、Transformersと比較してTTTモデルがより有望と考えられているのでしょうか?まず、Transformersの基本構成要素の1つは「隠れ状態」であり、本質的には非常に長いデータリストです。 Transformerが特定の内容を処理するとき、隠れ状態にエントリを追加して、さきほど処理した内容を「覚えておく」必要があります。たとえば、モデルが書籍を処理している場合、隠れ状態値は単語(または単語の一部)の表現方法になります。

前述のTTT研究に参加したスタンフォード大学のポスドクYu Sun氏は最近、メディアに向かって「Transformersを知的実体と見なした場合、その隠れ状態、つまりその脳ということになります。この脳は、Transformersのいくつかの機能、例えばシチュエーション学習を実現しています。」と説明しています。

隠れ状態はTransformersを強力にする一方、Transformersの発展を妨げることもあります。 たとえば、Transformersが書籍を読み込んだ直後、この書籍に関する1つの文字を「言う」ために、Transformersモデルはサブテーブル全体をスキャンする必要があります。この種の計算は、本全体を再読する必要があるほどのものです。

そのため、SunとTTTの他の研究者たちは、機械学習モデルを隠れ状態の代わりに使用することを考案しました。AIのネスティング人形のように、機械学習モデルは別のモデル内にあります。Transformersのルックアップテーブルとは異なり、TTTモデルの内部機械学習モデルは、より多くのデータを処理するたびに増加しません。代わりに、処理されたデータを符号化し、重みと呼ばれる代表的な変数に変換します。これがTTTモデルの高性能の原因です。TTTモデルが処理するデータの量に関係なく、内部モデルのサイズは変わりません。

太陽は、将来的にはTTTモデルが数十億のデータ、単語から画像、音声からビデオまで高効率に処理できると考えています。これは、現在のモデルの能力をはるかに超えるものです。 TTTシステムは、書籍ごとにX文字を言いながら、書籍全体を何度も読み直す計算を行わずに済みます。『Transformers』の大規模ビデオモデル(例えばSora)は、10秒のビデオしか処理できず、1つのルックアップテーブル「脳」しか持っていないため、将来の目標は、人間のビジュアルエクスペリエンスに似た長時間のビデオを処理できるシステムを開発することです。

TTTモデルはTransformersを置き換えますか?メディアはそれが可能性があると考えていますが、結論を出す時期はまだ早いです。 TTTモデルは現在、Transformersの直接の代替品ではありません。研究者は、比較的小さなTTTモデルを開発したため、現在、いくつかの大型Transformersモデルが応用した場合の結果をTTTと比較するのは困難です。

前述のTTT研究に参加していないロンドン・キングス・カレッジ情報学部の上級講師のマイク・クック氏は、TTTは非常に興味深い革新であり、データがこの視点での高効率化を支持できる場合、それは素晴らしいニュースですが、既存のアーキテクチャより優れているのかどうかは彼にはわかりませんでした。Cookは、彼が大学で学んでいたとき、教授がよくジョークを言っていたと言いました。「コンピュータサイエンスのどんな問題でも解決するには、抽象レイヤーをさらに追加してください。神経ネットワークに神経ネットワークを追加することは、そのジョークの答えを思い出させます。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする