share_log

Ruyi大模型测评:让人人都能当导演

新浪科技 ·  12/20 23:41

文 | 新浪科技 罗宁

近日,随着OpenAI的Sora模型以及Google DeepMind发布的Veo 2模型正式发布,视频生成模型再次受到公众关注。而在国内,图森未来也正式发布了“Ruyi”图生视频大模型,这是在官宣《三体》系列的动画长篇电影项目之后发布的首款图生视频大模型产品,新浪科技也在第一时间进行了简单的上手评测。

评测之前需要了解的是,本次的Ruyi大模型产品还处于初级阶段,目前,需要用户提供一张图片作为输入,并可以选择输出时长、输出分辨率、运动幅度和镜头移动方向等选项,Ruyi会根据输入的图像输出一个不超过5秒的视频。并且,Ruyi支持多分辨率、多时长生成,最小384*384,最大1024*1024分辨率,任意长宽比,最长120帧/5秒的视频生成。此外,Ruyi还可以支持最多5个起始帧、最多5个结束帧基础上的视频生成,通过循环叠加可以生成任意长度的视频。Ruyi提供了4档运动幅度控制和5种镜头控制,方便用户对整体画面的变化程度进行控制。

风景画面的理解和效果

首先测试的是Ruyi对风景照片的处理能力。风景照之所以被视为较简单的测试对象,是因为在这类场景中,无论是建筑、自然风光还是天空云朵,AI大模型通常展现出较强的理解能力。Ruyi的表现确实不负众望,在处理几张风景照片时,无论是城市建筑风光还是自然山水,Ruyi都能实现精细且生动的动态效果。

真实人物的处理效果

在对真实人物画面的处理上,Ruyi展现了其在动态视频生成中的多样性和挑战。我们选择了几张具有代表性的电影画面进行测试,以评估Ruyi在处理不同风格和情感表达时的能力。

首先,我们选取了《哈利波特与魔法石》中的一张场景,其中哈利波特和海格的动作被转换成自然流畅的动态画面。Ruyi不仅捕捉到了角色的基本动作,还增加了细节上的动态处理,使得原本静态的画面变得更加生动。

接着,我们测试了《天使爱美丽》中主角艾米莉的笑容。Ruyi成功地将这一经典笑容从静态转变为动态,保留了面部微表情的生动性,展现了模型在处理复杂人脸表情方面的潜力。

最后,我们尝试了《唐伯虎点秋香》中周星驰的夸张动作场景。虽然Ruyi在生成的效果中达到了基本的动作要求,但在捕捉和再现周星驰特有的夸张风格上,效果尚显中规中矩,未能完全体现出角色的夸张感。这一点提示了Ruyi在处理特定风格和文化背景下的表演时,可能需要进一步的优化和学习。

萌宠风格化图片的视频化

在测试Ruyi对风格化图片的处理能力时,我们首先选择了一张社交网络上广受欢迎的萌宠猫咪照片。从生成效果来看,Ruyi能够为这张静态图片注入动态元素,创造出猫咪在画面中活动的假象。Ruyi在保持萌宠的可爱特质的同时,为其添加了自然的动作,使得画面更加生动。

动漫风格化图片的视频化

除了萌宠照片,我们还测试了一张钢铁侠的动漫照片。Ruyi在处理这张图片时,成功地生成了不同的动作,使得画面更加精细和生动。然而,我们也注意到了一些违和感——钢铁侠在空中飞行的动作看起来更像是在跑步。这表明Ruyi在理解图片内容和生成与之匹配的动作时,仍有一定的提升空间。对于动漫和游戏领域,这种风格化图片的视频化能力尤为重要,因此Ruyi在未来的迭代中需要对这一点进行更多的优化和学习。

技术架构与性能

据悉,Ruyi大模型目前对用户的硬件要求仍旧较高,在现场,通过4090显卡渲染的时间是3-5分钟时间,而云端的方案目前尚未能提供。

在技术架构方面,Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,前者负责视频数据的压缩和解压,后者负责压缩后的视频生成。模型的总参数量约为7.1B,使用了约200M视频片段进行训练,展现了其强大的数据处理能力。

Ruyi的训练过程共分为了4个阶段,从256分辨率的预训练到图生视频的训练,每个阶段都针对不同的数据集和分辨率进行优化。图森未来表示,Ruyi将持续聚焦在如何真正解决行业痛点,特别是在动漫和游戏内容的开发周期和开发成本上。

结尾:为创作者提供更加灵活的选择

在与新浪科技交流过程中,图森未来表示,他们计划在2024年第四季度发布面向社区爱好者和创意团队的开源模型Mini-7B,并在2025年上半年推出针对专业内容制作团队的闭源模型Standard-30B,提供私有化部署。

就在12月19日,图森未来正式启用全新品牌CreateAI,并发布多项在生成式AI领域的重大进展。CreateAI宣布获著名武侠IP《金庸群侠传》正版授权,将开发一款大型武侠开放世界RPG游戏。CreateAI还将与著名动画导演河森正治,以及顶级动画制作公司株式会社白组展开合作,利用AIGC技术推动创作者在展示宏大宇宙文明方面实现更多突破。与此同时,CreateAI还发布了其首个大模型产品“Ruyi”,该模型定位于开源图生视频领域。作为其自研AI基础设施的底层核心,公司将基于“Ruyi”打造多个针对游戏和动画制作的AI生成式工具。

图森未来的Ruyi大模型,展示了其在孵化生成式AI工具方面的雄心。尽管Ruyi在手部畸形、多人时面部细节崩坏、不可控转场等问题上仍有改进空间,但据新浪科技了解,图森未来已经在积极解决这些问题,而从今年8月宣布进军AI大模型领域,并开发《三体》动画电影到现在,短短三个月时间,Ruyi就正式发布,可以预见的是,在动画制作和游戏开发方面,图森未来正在加速,相信本次开源模型的发布,将为不同需求的创作者提供更加灵活的选择。

声明:本内容仅用作提供资讯及教育之目的,不构成对任何特定投资或投资策略的推荐或认可。 更多信息
    抢沙发