テクノロジーの初期段階でまだ探索中です。
編集 | 周智宇
年の初めに、「文生ビデオ」モデルのSoraが登場し、AIビデオ生成の世界市場を席巻しています。10か月が経過しましたが、Soraはまだ非公開であり、後発のテンセントMixGlobalはこの戦場に先んじて参加しました。
12月3日、テンセントMixGlobalは大規模なビデオ生成能力を公式に開始しました。一般消費者はテンセントの元宝APPを通じて申請し、企業顧客はテンセントクラウドを通じてサービスにアクセスできます。現在、APIは内部テストの申請を同期して開始しています。
文生ビデオが登場したことは、文生文、文生画像、3D生成に続く、テンセントMixGlobalの新たな里程碑です。同時に、テンセントはこのビデオ生成大規模モデルをオープンソース化し、そのパラメーター数は130億で、現在、最大のオープンソースビデオモデルです。
華爾街見聞によると、テンセントMixGlobalのビデオ生成はほとんどハードルがありません。ユーザーは簡単に文章を入力するだけで、テンセントMixGlobalビデオ大モデルが5秒のビデオを生成することができます。
Soraの分数レベルやいくつかの「Soraに似た」製品が10秒でビデオを生成する時間に比べて、Tencent Mix元のビデオ生成にはあまり興奮しない。
当日のメディアコミュニケーションで、Tencent Mix元のマルチモード生成技術リーダーは、ビデオの長さは技術的な問題ではなく、純粋な計算力とデータの問題であると述べました。なぜなら、時間が2倍になると、その計算力は二乗的に増加するため、それほどコストパフォーマンスが高くないからです。
さらに、彼は、ほとんどの人がビデオを使用する場合、1つのショットが続いていますので、Mix元ビデオ生成モデルの最初のバージョンはまず5秒の長さを出し、ほとんどのニーズを優先的に満たしています。"将来、多くの強い要求がある場合、非常に長い一連のショットを作る必要がある場合、私たちはアップグレードします。"
Tencent Mix元生成ビデオは現在、主にリアルな画質、意味に沿った、ダイナミックでスムーズな、ネイティブなトランジションが特徴です。
技術的な進化において、Tencent Mix元のビデオ生成モデルは、Soraと同様のDiTアーキテクチャを選択し、多くのアップグレードを施したと述べています。これには、自然言語処理モデルとして多モード大規模言語モデルを導入し、自社開発の全アテンションDiT、自社開発の3D VAEなどが含まれます。
Tencent Mix元のマルチモード生成技術責任者は、マルチモード大規模言語モデルをテキストエンコーダーとして使用するビデオ生成モデルとして、業界で最初か特に少数となることを指摘しています。現在、業界では主にT5モデルやCLIPモデルをテキストエンコーダーとして選択しています。
この選択をした理由は、Tencent Mix元がこの技術路線の3つの利点、複雑なテキストの理解能力の向上、ネイティブな画像テキストの整合性、およびシステム提示語のサポートに注目したからです。
さらに、Tencent Mix元のマルチモード生成技術責任者は、GPTを行う前に、OpenAIが言語モデルでScaling Law(より多くのデータでより大きなモデルをトレーニング)の有効性を検証するのに多くの労力を費やしたが、ビデオ生成分野では学術界や業界がScaling Lawの有効性を公表していないと述べています。
この背景の下、テンセント混元チームは画像、ビデオ生成のスケーリング法則を自ら検証し、最終的に画像DiTを持つビデオは2段階の訓練がスケーリング法則の性質を持つ結論を導きました。
「なので、最初のバージョンのテンセント混元ビデオ生成モデルはこの厳密なスケーリング法則に基づき、130億のモデルを作成しました。」テンセント混元のマルチモード生成技術責任者は述べました。
同時に、テンセント混元はビデオ生成のエコシステムモデルの探索に取り組んでおり、画像生成ビデオモデル、ビデオ声優モデル、2D写真からのデジタルウマのドライブなどを含んでいます。
テンセント混元のマルチモード生成技術責任者は、文生成ビデオに比べて、画像生成ビデオモデルは利用可能性の進展がより速く、ほぼ1か月以内に混元が最新の進展を発表する可能性があると指摘しています。
ChatGPTが2年前に引き起こしたAI大規模モデルのブーム以降、大言語モデル技術の道筋は既に収束しており、ビデオ生成モデルはまだ探索段階にあります。
orientアナリストによると、OpenAIの技術により、現在の言語モデルの技術パスは基本的にGPTに沿っています。そして、マルチモード技術分野では、現在、どの会社も絶対的なリーダーシップ地位になく、技術の経路はまだ探索の余地があります。
テンセント混元のマルチモード生成技術責任者も、文生成ビデオは全体的にまだ十分に成熟しておらず、総合合格率も高くありません。
マルチモード生成の中で最も難しい分野であるビデオ生成は、計算能力、データなどのリソースに高い要求をし、現在、テキストや画像に比べて成熟度が低く、同時にビジネス化、製品化の進展が遅れている挑戦に直面しています。
OpenAIも、計算リソースの不足によりSoraの更新が遅れ、今のところ外部には公開されていません。
それでも、市場をより速く席巻するために、昨年11月以来、ビデオ生成分野での成果が密集して実現しています。
現時点では、多くの大手モデルメーカーがSoraに類似した製品を展開しており、国内ではMiniMax、ZhiPu、字節、Kwai、アイ・シー・テクノロジーなどが、海外ではRunway、Pika、Lumaなどが含まれます。ただし、計算リソースやテクノロジーなどの要因により、ビデオ生成の時間は一般的に10秒以内です。
ビジネス化を推進するためには、大手モデルメーカーはさらに多くのビデオ生成の応用シーンを見つける必要があります。このたび、Tencentは、混合現実ビデオ生成モデルの画面が高品質であり、広告宣伝、アニメーション制作、クリエイティブビデオ生成など、産業向けビジネスシーンに使用できるという方針を提示しました。
ビデオAIは、マルチモーダル領域の最後のピースであり、より多くのヒットアプリケーションを生み出しやすい領域でもありますが、計算リソースの投入と商業化のバランスをどう取るかという問題は、現時点で「Soraに類似した」ビデオ生成モデルたちが解決しなければならない重要な課題です。