Ruyi大模型测评：让人人都能当导演

新浪科技 · 12/20 23:41

文 | 新浪科技罗宁

近日，随着OpenAI的Sora模型以及Google DeepMind发布的Veo 2模型正式发布，视频生成模型再次受到公众关注。而在国内，图森未来也正式发布了“Ruyi”图生视频大模型，这是在官宣《三体》系列的动画长篇电影项目之后发布的首款图生视频大模型产品，新浪科技也在第一时间进行了简单的上手评测。

评测之前需要了解的是，本次的Ruyi大模型产品还处于初级阶段，目前，需要用户提供一张图片作为输入，并可以选择输出时长、输出分辨率、运动幅度和镜头移动方向等选项，Ruyi会根据输入的图像输出一个不超过5秒的视频。并且，Ruyi支持多分辨率、多时长生成，最小384*384，最大1024*1024分辨率，任意长宽比，最长120帧/5秒的视频生成。此外，Ruyi还可以支持最多5个起始帧、最多5个结束帧基础上的视频生成，通过循环叠加可以生成任意长度的视频。Ruyi提供了4档运动幅度控制和5种镜头控制，方便用户对整体画面的变化程度进行控制。

风景画面的理解和效果

首先测试的是Ruyi对风景照片的处理能力。风景照之所以被视为较简单的测试对象，是因为在这类场景中，无论是建筑、自然风光还是天空云朵，AI大模型通常展现出较强的理解能力。Ruyi的表现确实不负众望，在处理几张风景照片时，无论是城市建筑风光还是自然山水，Ruyi都能实现精细且生动的动态效果。

真实人物的处理效果

在对真实人物画面的处理上，Ruyi展现了其在动态视频生成中的多样性和挑战。我们选择了几张具有代表性的电影画面进行测试，以评估Ruyi在处理不同风格和情感表达时的能力。

首先，我们选取了《哈利波特与魔法石》中的一张场景，其中哈利波特和海格的动作被转换成自然流畅的动态画面。Ruyi不仅捕捉到了角色的基本动作，还增加了细节上的动态处理，使得原本静态的画面变得更加生动。

接着，我们测试了《天使爱美丽》中主角艾米莉的笑容。Ruyi成功地将这一经典笑容从静态转变为动态，保留了面部微表情的生动性，展现了模型在处理复杂人脸表情方面的潜力。

最后，我们尝试了《唐伯虎点秋香》中周星驰的夸张动作场景。虽然Ruyi在生成的效果中达到了基本的动作要求，但在捕捉和再现周星驰特有的夸张风格上，效果尚显中规中矩，未能完全体现出角色的夸张感。这一点提示了Ruyi在处理特定风格和文化背景下的表演时，可能需要进一步的优化和学习。

萌宠风格化图片的视频化

在测试Ruyi对风格化图片的处理能力时，我们首先选择了一张社交网络上广受欢迎的萌宠猫咪照片。从生成效果来看，Ruyi能够为这张静态图片注入动态元素，创造出猫咪在画面中活动的假象。Ruyi在保持萌宠的可爱特质的同时，为其添加了自然的动作，使得画面更加生动。

动漫风格化图片的视频化

除了萌宠照片，我们还测试了一张钢铁侠的动漫照片。Ruyi在处理这张图片时，成功地生成了不同的动作，使得画面更加精细和生动。然而，我们也注意到了一些违和感——钢铁侠在空中飞行的动作看起来更像是在跑步。这表明Ruyi在理解图片内容和生成与之匹配的动作时，仍有一定的提升空间。对于动漫和游戏领域，这种风格化图片的视频化能力尤为重要，因此Ruyi在未来的迭代中需要对这一点进行更多的优化和学习。

技术架构与性能

据悉，Ruyi大模型目前对用户的硬件要求仍旧较高，在现场，通过4090显卡渲染的时间是3-5分钟时间，而云端的方案目前尚未能提供。

在技术架构方面，Ruyi基于DiT架构，由Casual VAE模块和Diffusion Transformer组成，前者负责视频数据的压缩和解压，后者负责压缩后的视频生成。模型的总参数量约为7.1B，使用了约200M视频片段进行训练，展现了其强大的数据处理能力。

Ruyi的训练过程共分为了4个阶段，从256分辨率的预训练到图生视频的训练，每个阶段都针对不同的数据集和分辨率进行优化。图森未来表示，Ruyi将持续聚焦在如何真正解决行业痛点，特别是在动漫和游戏内容的开发周期和开发成本上。

结尾：为创作者提供更加灵活的选择

在与新浪科技交流过程中，图森未来表示，他们计划在2024年第四季度发布面向社区爱好者和创意团队的开源模型Mini-7B，并在2025年上半年推出针对专业内容制作团队的闭源模型Standard-30B，提供私有化部署。

就在12月19日，图森未来正式启用全新品牌CreateAI，并发布多项在生成式AI领域的重大进展。CreateAI宣布获著名武侠IP《金庸群侠传》正版授权，将开发一款大型武侠开放世界RPG游戏。CreateAI还将与著名动画导演河森正治，以及顶级动画制作公司株式会社白组展开合作，利用AIGC技术推动创作者在展示宏大宇宙文明方面实现更多突破。与此同时，CreateAI还发布了其首个大模型产品“Ruyi”，该模型定位于开源图生视频领域。作为其自研AI基础设施的底层核心，公司将基于“Ruyi”打造多个针对游戏和动画制作的AI生成式工具。

图森未来的Ruyi大模型，展示了其在孵化生成式AI工具方面的雄心。尽管Ruyi在手部畸形、多人时面部细节崩坏、不可控转场等问题上仍有改进空间，但据新浪科技了解，图森未来已经在积极解决这些问题，而从今年8月宣布进军AI大模型领域，并开发《三体》动画电影到现在，短短三个月时间，Ruyi就正式发布，可以预见的是，在动画制作和游戏开发方面，图森未来正在加速，相信本次开源模型的发布，将为不同需求的创作者提供更加灵活的选择。

声明：本内容仅用作提供资讯及教育之目的，不构成对任何特定投资或投资策略的推荐或认可。更多信息

Ruyi大模型测评：让人人都能当导演

风险及免责提示