share_log

Ruyi大模型测评:让人人都能当导演

Ruyi大模型測評:讓人人都能當導演

新浪科技 ·  12/20 07:41

文 | 新浪科技 羅寧

近日,隨着OpenAI的Sora模型以及Google DeepMind發佈的Veo 2模型正式發佈,視頻生成模型再次受到公衆關注。而在國內,圖森未來也正式發佈了「Ruyi」圖生視頻大模型,這是在官宣《三體》系列的動畫長篇電影項目之後發佈的首款圖生視頻大模型產品,新浪科技也在第一時間進行了簡單的上手評測。

評測之前需要了解的是,本次的Ruyi大模型產品還處於初級階段,目前,需要用戶提供一張圖片作爲輸入,並可以選擇輸出時長、輸出分辨率、運動幅度和鏡頭移動方向等選項,Ruyi會根據輸入的圖像輸出一個不超過5秒的視頻。並且,Ruyi支持多分辨率、多時長生成,最小384*384,最大1024*1024分辨率,任意長寬比,最長120幀/5秒的視頻生成。此外,Ruyi還可以支持最多5個起始幀、最多5個結束幀基礎上的視頻生成,通過循環疊加可以生成任意長度的視頻。Ruyi提供了4檔運動幅度控制和5種鏡頭控制,方便用戶對整體畫面的變化程度進行控制。

風景畫面的理解和效果

首先測試的是Ruyi對風景照片的處理能力。風景照之所以被視爲較簡單的測試對象,是因爲在這類場景中,無論是建築、自然風光還是天空雲朵,AI大模型通常展現出較強的理解能力。Ruyi的表現確實不負衆望,在處理幾張風景照片時,無論是城市建築風光還是自然山水,Ruyi都能實現精細且生動的動態效果。

真實人物的處理效果

在對真實人物畫面的處理上,Ruyi展現了其在動態視頻生成中的多樣性和挑戰。我們選擇了幾張具有代表性的電影畫面進行測試,以評估Ruyi在處理不同風格和情感表達時的能力。

首先,我們選取了《哈利波特與魔法石》中的一張場景,其中哈利波特和海格的動作被轉換成自然流暢的動態畫面。Ruyi不僅捕捉到了角色的基本動作,還增加了細節上的動態處理,使得原本靜態的畫面變得更加生動。

接着,我們測試了《天使愛美麗》中主角艾米莉的笑容。Ruyi成功地將這一經典笑容從靜態轉變爲動態,保留了面部微表情的生動性,展現了模型在處理複雜人臉表情方面的潛力。

最後,我們嘗試了《唐伯虎點秋香》中周星馳的誇張動作場景。雖然Ruyi在生成的效果中達到了基本的動作要求,但在捕捉和再現周星馳特有的誇張風格上,效果尚顯中規中矩,未能完全體現出角色的誇張感。這一點提示了Ruyi在處理特定風格和文化背景下的表演時,可能需要進一步的優化和學習。

萌寵風格化圖片的視頻化

在測試Ruyi對風格化圖片的處理能力時,我們首先選擇了一張社交網絡上廣受歡迎的萌寵貓咪照片。從生成效果來看,Ruyi能夠爲這張靜態圖片注入動態元素,創造出貓咪在畫面中活動的假象。Ruyi在保持萌寵的可愛特質的同時,爲其添加了自然的動作,使得畫面更加生動。

動漫風格化圖片的視頻化

除了萌寵照片,我們還測試了一張鋼鐵俠的動漫照片。Ruyi在處理這張圖片時,成功地生成了不同的動作,使得畫面更加精細和生動。然而,我們也注意到了一些違和感——鋼鐵俠在空中飛行的動作看起來更像是在跑步。這表明Ruyi在理解圖片內容和生成與之匹配的動作時,仍有一定的提升空間。對於動漫和遊戲領域,這種風格化圖片的視頻化能力尤爲重要,因此Ruyi在未來的迭代中需要對這一點進行更多的優化和學習。

技術架構與性能

據悉,Ruyi大模型目前對用戶的硬件要求仍舊較高,在現場,通過4090顯卡渲染的時間是3-5分鐘時間,而云端的方案目前尚未能提供。

在技術架構方面,Ruyi基於DiT架構,由Casual VAE模塊和Diffusion Transformer組成,前者負責視頻數據的壓縮和解壓,後者負責壓縮後的視頻生成。模型的總參數量約爲7.1B,使用了約200M視頻片段進行訓練,展現了其強大的數據處理能力。

Ruyi的訓練過程共分爲了4個階段,從256分辨率的預訓練到圖生視頻的訓練,每個階段都針對不同的數據集和分辨率進行優化。圖森未來表示,Ruyi將持續聚焦在如何真正解決行業痛點,特別是在動漫和遊戲內容的開發週期和開發成本上。

結尾:爲創作者提供更加靈活的選擇

在與新浪科技交流過程中,圖森未來表示,他們計劃在2024年第四季度發佈面向社區愛好者和創意團隊的開源模型Mini-7B,並在2025年上半年推出針對專業內容製作團隊的閉源模型Standard-30B,提供私有化部署。

就在12月19日,圖森未來正式啓用全新品牌CreateAI,並發佈多項在生成式AI領域的重大進展。CreateAI宣佈獲著名武俠IP《金庸群俠傳》正版授權,將開發一款大型武俠開放世界RPG遊戲。CreateAI還將與著名動畫導演河森正治,以及頂級動畫製作公司株式會社白組展開合作,利用AIGC技術推動創作者在展示宏大宇宙文明方面實現更多突破。與此同時,CreateAI還發佈了其首個大模型產品「Ruyi」,該模型定位於開源圖生視頻領域。作爲其自研AI基礎設施的底層核心,公司將基於「Ruyi」打造多個針對遊戲和動畫製作的AI生成式工具。

圖森未來的Ruyi大模型,展示了其在孵化生成式AI工具方面的雄心。儘管Ruyi在手部畸形、多人時面部細節崩壞、不可控轉場等問題上仍有改進空間,但據新浪科技了解,圖森未來已經在積極解決這些問題,而從今年8月宣佈進軍AI大模型領域,並開發《三體》動畫電影到現在,短短三個月時間,Ruyi就正式發佈,可以預見的是,在動畫製作和遊戲開發方面,圖森未來正在加速,相信本次開源模型的發佈,將爲不同需求的創作者提供更加靈活的選擇。

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論