文 | 新浪科技 罗宁
最近、OpenAIのSoraモデルとGoogle DeepMindが発表したVeo 2モデルが正式にリリースされたことで、動画生成モデルは再び注目を集めています。そして国内では、TuSimpleが「Ruyi」画像生成動画大モデルを正式に発表しました。これは「三体」シリーズのアニメ映画プロジェクトを公式に発表した後にリリースされた初の画像生成動画大モデル製品であり、Sina Techも迅速に簡単な使用評価を行いました。
評価を行う前に知っておくべきことは、今回のRuyi大モデル製品はまだ初級段階にあり、現在はユーザーが入力として画像を提供する必要があります。また、出力時間、出力解像度、動きの幅、カメラの移動方向などのオプションを選択可能で、Ruyiは入力された画像に基づいて5秒以内の動画を出力します。さらに、Ruyiは複数の解像度と長さの生成をサポートし、最小384*384、最大1024*1024の解像度、任意のアスペクト比、最長120フレーム/5秒の動画生成が可能です。加えて、Ruyiは最大5つの開始フレームと最大5つの終了フレームを基にした動画生成をサポートしており、ループを重ねることで任意の長さの動画を生成できることも特徴です。Ruyiは4段階の動きの幅制御と5種類のカメラ制御を提供し、ユーザーが全体の画面の変化の程度を調整しやすくしています。
風景画の理解と効果
最初にテストしたのはRuyiの風景写真の処理能力です。風景写真は、建物、自然の風景、または空の雲など、この種のシーンではAI大モデルが通常強い理解能力を示すため、比較的簡単なテスト対象と見なされています。Ruyiの成果は期待に応え、いくつかの風景写真の処理において、都市の建築風景でも自然の山水でも、精緻で生き生きとした動的効果を実現しています。
リアルな人物の処理効果
リアルな人物の画面処理において、Ruyiは動画生成の多様性と挑戦を示しました。代表的な映画の画面をいくつか選んでテストを行い、Ruyiが異なるスタイルや感情表現を処理する能力を評価しました。
最初に、『ハリー・ポッターと賢者の石』のシーンを選択しました。その中でハリー・ポッターとハグリッドの動作が自然で滑らかな動的画面に変換されました。Ruyiはキャラクターの基本動作を捉えるだけでなく、細部において動的処理を加え、元々静的な画面がより生き生きとしたものになりました。
次に、『アメリの笑う理由』の主役エミリーの笑顔をテストしました。Ruyiはこのクラシックな笑顔を静止から動的に変換し、顔の微表情の生き生きとした表現を保持することに成功し、モデルが複雑な顔の表情を処理する能力を示しました。
最後に、『唐伯虎点秋香』での周星驰の誇張されたアクションシーンを試みました。Ruyiは生成された効果の中で基本的な動作要件を満たしましたが、周星驰特有の誇張スタイルを捉え再現する点では、効果がやや一般的であり、キャラクターの誇張感を完全に表現するには至りませんでした。この点は、Ruyiが特定のスタイルや文化的背景におけるパフォーマンスを扱う際に、さらなる最適化と学習が必要であることを示唆しています。
萌えペットスタイルの画像の動画化
Ruyiのスタイル化された画像処理能力をテストするために、まずソーシャルネットワークで広く人気のある萌えペットの猫の写真を選びました。生成された効果から見ると、Ruyiはこの静的画像に動的要素を注入し、猫が画面の中で活動しているかのような錯覚を生み出すことができました。Ruyiは萌えペットの可愛らしい特性を保ちながら、自然な動作を追加し、画面をより生き生きとさせました。
アニメスタイル化画像の動画化
萌えペットの写真に加え、鋼鉄侠のアニメ写真もテストしました。Ruyiはこの画像を処理する際に、異なる動作を生成し、画面をより精密で生き生きとしたものにすることに成功しました。しかし、いくつかの違和感にも気づきました——鋼鉄侠の空中飛行の動作は走っているように見えました。これは、Ruyiが画像の内容を理解し、それに合った動作を生成する際に、まだ一定の改善の余地があることを示しています。アニメやゲームの分野にとって、このようなスタイル化された画像の動画化能力は特に重要であり、したがってRuyiは今後のバージョンでこれをさらに最適化し学習する必要があります。
技術アーキテクチャと性能
報告によれば、Ruyiの大モデルは現在、ユーザーのハードウェア要件が依然として高く、現場では、4090グラフィックカードでのレンダリング時間が3〜5分かかりますが、クラウドのソリューションはまだ提供されていません。
テクノロジーアーキテクチャの観点から、RuyiはDiTアーキテクチャに基づいており、Casual VAEモジュールとDiffusion Transformerで構成されています。前者は動画データの圧縮と解凍を担当し、後者は圧縮後の動画生成を担当します。モデルの総パラメータ数は約7.1Bで、約200Mの動画クリップを用いて訓練されており、その強力なデータ処理能力を示しています。
Ruyiの訓練プロセスは合計4つの段階に分かれており、256解像度の事前訓練から画像生成動画の訓練まで、各段階は異なるデータセットと解像度に対して最適化されています。図森未来は、Ruyiが業種の痛点を本当に解決する方法、特にアニメとゲームコンテンツの開発周期と開発コストに焦点を当て続けると述べました。
結尾:創作者により柔軟な選択肢を提供します。
新浪科技との交流の中で、図森未来は2024年第四四半期にコミュニティの愛好者とクリエイティブチーム向けのオープンソースモデルMini-7Bを公開し、2025上半期に専門的なコンテンツ制作チーム向けのクローズドソースモデルStandard-30Bを提供し、プライベートなデプロイを行う計画があると述べました。
12月19日、図森未来は新ブランドCreateAIを正式に発表し、生成的AI分野における重大な進展をいくつか発表しました。CreateAIは有名な武侠IP《金庸グループ》の正規ライセンスを取得し、大規模な武侠オープンワールドRPGゲームを開発します。CreateAIはまた、有名なアニメーション監督河森正治や、トップアニメ制作会社株式会社白組と協力し、AIGC技術を利用して創作者が広大な宇宙文明を展示する上でのさらなる突破を実現します。一方で、CreateAIは最初の大規模モデル製品「Ruyi」を発表しました。これはオープンソースの画像生成動画領域に位置付けられています。自社開発のAIインフラの基盤コアとして、会社は「Ruyi」に基づいてゲームやアニメ制作向けの複数のAI生成ツールを開発していきます。
図森未来のRuyi大モデルは、生成的AIツールの育成における野心を示しました。Ruyiは手の形成異常、複数人での顔のディテール崩壊、制御できないトランジションなどの問題において改善の余地がありますが、新浪科技によると、図森未来はこれらの問題を積極的に解決しているとのことです。今年8月にはAI大モデル分野への進出を発表し、《三体》アニメ映画の開発からわずか3ヶ月でRuyiが正式にリリースされました。アニメ制作とゲーム開発の分野で、図森未来は加速しています。今回のオープンソースモデルの公開は、異なるニーズを持つ創作者により柔軟な選択肢を提供するだろうと考えられます。