Sora勁敵！Meta最強沉浸式AI媒體模型來了，300億參數模型支持Movie Gen視頻

華爾街見聞 · 10/04 10:10

Meta称，Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”，基于授权和公开可用数据训练，以每秒16帧的速度文生视频最长16秒；130亿参数模型支持音频生成；人工评测时，Movie Gen的视频生成能力对Sora净胜率8.2。Meta未明确何时发布，扎克伯格称明年上线Instagram。

本文作者：李丹

来源：硬AI

OpenAI的Sora迎来劲敌，Meta推出号称最先进的媒体基础模型Movie Gen。

Meta称，Movie Gen是公司“针对媒体的突破性生成式AI研究”，它囊括了图像、视频和音频等模态，用户只需输入文本，就可以制作自定义的视频和声音、编辑现有视频，以及将个人图像转换为独特的视频。Movie Gen执行这些任务的表现在人类评估中由于业内类似模型。

Meta介绍，Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”，综合了公司第一波生成式AI媒体研究的Make-A-Scene 系列模型，即可创建图像、音频、视频和 3D 动画的模型，以及随着扩散模型出现而针对Llama Image 基础模型进行的第二波研究模型，即可实现更高质量图像和视频生成以及图像编辑的模型。

文生视频最长16秒 130亿参数音频生成模型人工评测视频生成对Sora净胜率8.2

Meta概括，Movie Gen 具有四种功能：视频生成、个性化视频生成、精确视频编辑、音频生成。

对于视频生成，Meta介绍，用户只要提供一个文本的提示词，Movie Gen就可以利用针对文本转图像和文本转视频进行了优化的联合模型，创建高清的高质量图像和视频。Movie Gen的视频模型有300亿参数，这个转换模型能以每秒16帧的速度生成最长16秒的视频。

Meta称，发现这些模型可以推理物体的运动、拍摄主体与物体之间的相互作用，以及相机的运动，并且可以学习各种概念了解有哪些合理的运动，因此，它们成为同类中最先进的模型。在介绍该功能时，Meta展示了多个10秒长度的视频短片，包括一只像萌翻网络的弹跳猪“Moo Deng”那样的小河马游来游去。

华尔街见闻注意到，单从生成视频的最大长度看，Movie Gen还不敌今年2月OpenAI发布的Sora。Sora令业界震撼的一点是，可以创建长达60秒的文生视频，。不过，相比Meta去年11月官宣的视频模型Emu Video，Movie Gen确实进步不小。Emu Video只能以每秒16帧的速度生成最长4秒的视频。

除了直接文生视频，Movie Gen还有出色的个性化视频制作能力。Meta介绍，其扩展了前述基础模型，支持生成个性化视频。用户可以提供某个人的图像，配合文本的提示词，让Move Gen生成的视频包含参考图像中的人物，以及符合文本提示的视觉细节。Meta称，在创建保留人类身份和动作的个性化视频方面，其模型取得了最先进的成果。

Meta展示的一个视频显示，用户可以提供一个女孩的照片，输入文字“一名身穿粉色马甲的女DJ播放唱片，她身旁有一只猎豹”，然后就生成了以照片中女孩形象的DJ打碟，以及一只猎豹陪伴。

在精确视频编辑方面，Meta称，Movie Gen采用了同一基础模型的编辑变体模型，在用户输入视频和文本提示词后，精确执行任务，生成所需的输出。它将视频生成与高级图像编辑相结合，执行局部编辑，例如添加、删除或替换元素，以及诸如背景或样式修改的全局更改。与需要专业技能或缺乏生成精确度的传统工具不同，Movie Gen 保留了原始内容，仅针对相关像素编辑。

Meta提供的示例之一是，用户输入，让企鹅穿上有英国女王维多利亚在位时期服饰风格的服装，Movie Gen生成的企鹅穿上了带蕾丝的红色女裙。

对于音频生成，Meta称，训练了一个130亿参数的音频生成模型，该模型可以接受视频和可选的文本提示词，生成长达 45 秒的高质量高保真音频，包括环境音、拟声音效（Foley）和乐器背景音乐，所有这些都与视频内容同步。此外，Meta引入了一种音频扩展技术，可以为任意长度的视频生成连贯的音频，在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了最先进的性能。

Meta提供的一个例子是，生成在吉他音乐的伴奏下，全地形车（ATV）引擎轰鸣加速的声音，还有一个例子是，管弦乐声中有树叶沙沙作响和树枝折断的声音。

Meta还展示了针对以上四种能力进行的A/B对比测试人工评估结果，下图显示的净正值胜率代表，相比Sora等竞品模型，人类评估者更青睐Movie Gen模型生成的结果。在直接生成视频这个功能方面，Movie Gen相比Sora的净胜率达到8.2。

基于授权和公开可用数据训练未明确何时发布扎克伯格称明年上线Instagram

Movie Gen 是基于哪些信息进行训练的？Meta 的声明没有说明具体细节，只是说：“我们基于授权和公开可用的数据集对这些模型进行了训练。”

有评论指出，对生成式 AI 工具而言，训练数据的来源以及从网上抓取哪些数据合理仍然是有争议的问题，而且公众很少知道使用哪些文本、视频或音频片段创建了任何大模型。

还有评论称，Meta说训练用的数据集是“专有/商业敏感”的，未提供细节，那么只能猜测，数据包括很多Instagram 和 Facebook 平台的视频，加上一些Meta合作伙伴的内容，以及其他很多未得到充分保护的内容、也就是所谓的“公开可用”内容。

对于发布时间，Meta本周五并未明确Movie Gen何时面向大众推出，只是含糊地说“可能未来发布”。今年2月OpenAI官宣Sora后迄今还未真正向公众开放使用，也并未透露任何计划将要发布的日期。

不过，Meta CEO扎克伯格称，Movie Gen明年会上线Meta旗下的社交媒体Instagram。他在个人Instagram账号发布了一段Movie Gen生成的视频，显示他在用腿部推举机，随着他开始锻炼，背景发生了变化。先是显示，他在一家霓虹灯照耀的未来风格健身房锻炼，然后变为，他穿着角斗士盔甲锻炼，接着变为他推动一台燃烧的纯金机器，最后变为，他用腿部推举一盒鸡块，周围是一片薯条。

扎克伯格配上文字称，Meta新的 MovieGen AI 模型可以制作和编辑视频，每天都是炼腿的日子。该模型将于明年登陆 Instagram。

在社交媒体X，Meta官宣并演示Movie Gen的帖子下面，一些点赞高的评论显示，网友已经在催促Meta正式发布该模型，有网友问，不知道大家有没有机会来试试它。 big

Meta稱，Movie Gen是「最先進、沉浸式效果最佳的故事講述模型套件」，基於授權和公開可用數據訓練，以每秒16幀的速度文生視頻最長16秒；130億參數模型支持音頻生成；人工評測時，Movie Gen的視頻生成能力對Sora淨勝率8.2。Meta未明確何時發佈，扎克伯格稱明年上線Instagram。

本文作者：李丹

來源：硬AI

OpenAI的Sora迎來勁敵，Meta推出號稱最先進的媒體基礎模型Movie Gen。

Meta稱，Movie Gen是公司「針對媒體的突破性生成式AI研究」，它囊括了圖像、視頻和音頻等模態，用戶只需輸入文本，就可以製作自定義的視頻和聲音、編輯現有視頻，以及將個人圖像轉換爲獨特的視頻。Movie Gen執行這些任務的表現在人類評估中由於業內類似模型。

Meta介紹，Movie Gen是「最先進、沉浸式效果最佳的故事講述模型套件」，綜合了公司第一波生成式AI媒體研究的Make-A-Scene 系列模型，即可創建圖像、音頻、視頻和 3D 動畫的模型，以及隨着擴散模型出現而針對Llama Image 基礎模型進行的第二波研究模型，即可實現更高質量圖像和視頻生成以及圖像編輯的模型。

文生視頻最長16秒 130億參數音頻生成模型人工評測視頻生成對Sora淨勝率8.2

Meta概括，Movie Gen 具有四種功能：視頻生成、個性化視頻生成、精確視頻編輯、音頻生成。

對於視頻生成，Meta介紹，用戶只要提供一個文本的提示詞，Movie Gen就可以利用針對文本轉圖像和文本轉視頻進行了優化的聯合模型，創建高清的高質量圖像和視頻。Movie Gen的視頻模型有300億參數，這個轉換模型能以每秒16幀的速度生成最長16秒的視頻。

Meta稱，發現這些模型可以推理物體的運動、拍攝主體與物體之間的相互作用，以及相機的運動，並且可以學習各種概念了解有哪些合理的運動，因此，它們成爲同類中最先進的模型。在介紹該功能時，Meta展示了多個10秒長度的視頻短片，包括一隻像萌翻網絡的彈跳豬「Moo Deng」那樣的小河馬游來游去。

華爾街見聞注意到，單從生成視頻的最大長度看，Movie Gen還不敵今年2月OpenAI發佈的Sora。Sora令業界震撼的一點是，可以創建長達60秒的文生視頻，。不過，相比Meta去年11月官宣的視頻模型Emu Video，Movie Gen確實進步不小。Emu Video只能以每秒16幀的速度生成最長4秒的視頻。

除了直接文生視頻，Movie Gen還有出色的個性化視頻製作能力。Meta介紹，其擴展了前述基礎模型，支持生成個性化視頻。用戶可以提供某個人的圖像，配合文本的提示詞，讓Move Gen生成的視頻包含參考圖像中的人物，以及符合文本提示的視覺細節。Meta稱，在創建保留人類身份和動作的個性化視頻方面，其模型取得了最先進的成果。

Meta展示的一個視頻顯示，用戶可以提供一個女孩的照片，輸入文字「一名身穿粉色馬甲的女DJ播放唱片，她身旁有一隻獵豹」，然後就生成了以照片中女孩形象的DJ打碟，以及一隻獵豹陪伴。

在精確視頻編輯方面，Meta稱，Movie Gen採用了同一基礎模型的編輯變體模型，在用戶輸入視頻和文本提示詞後，精確執行任務，生成所需的輸出。它將視頻生成與高級圖像編輯相結合，執行局部編輯，例如添加、刪除或替換元素，以及諸如背景或樣式修改的全局更改。與需要專業技能或缺乏生成精確度的傳統工具不同，Movie Gen 保留了原始內容，僅針對相關像素編輯。

Meta提供的示例之一是，用戶輸入，讓企鵝穿上有英國女王維多利亞在位時期服飾風格的服裝，Movie Gen生成的企鵝穿上了帶蕾絲的紅色女裙。

對於音頻生成，Meta稱，訓練了一個130億參數的音頻生成模型，該模型可以接受視頻和可選的文本提示詞，生成長達 45 秒的高質量高保真音頻，包括環境音、擬聲音效（Foley）和樂器背景音樂，所有這些都與視頻內容同步。此外，Meta引入了一種音頻擴展技術，可以爲任意長度的視頻生成連貫的音頻，在音頻質量、視頻到音頻對齊和文本到音頻對齊方面總體上實現了最先進的性能。

Meta提供的一個例子是，生成在吉他音樂的伴奏下，全地形車（ATV）引擎轟鳴加速的聲音，還有一個例子是，管絃樂聲中有樹葉沙沙作響和樹枝折斷的聲音。

Meta還展示了針對以上四種能力進行的A/B對比測試人工評估結果，下圖顯示的淨正值勝率代表，相比Sora等競品模型，人類評估者更青睞Movie Gen模型生成的結果。在直接生成視頻這個功能方面，Movie Gen相比Sora的淨勝率達到8.2。

基於授權和公開可用數據訓練未明確何時發佈扎克伯格稱明年上線Instagram

Movie Gen 是基於哪些信息進行訓練的？Meta 的聲明沒有說明具體細節，只是說：「我們基於授權和公開可用的數據集對這些模型進行了訓練。」

有評論指出，對生成式 AI 工具而言，訓練數據的來源以及從網上抓取哪些數據合理仍然是有爭議的問題，而且公衆很少知道使用哪些文本、視頻或音頻片段創建了任何大模型。

還有評論稱，Meta說訓練用的數據集是「專有/商業敏感」的，未提供細節，那麼只能猜測，數據包括很多Instagram 和 Facebook 平台的視頻，加上一些Meta合作伙伴的內容，以及其他很多未得到充分保護的內容、也就是所謂的「公開可用」內容。

對於發佈時間，Meta本週五並未明確Movie Gen何時面向大衆推出，只是含糊地說「可能未來發布」。今年2月OpenAI官宣Sora後迄今還未真正向公衆開放使用，也並未透露任何計劃將要發佈的日期。

不過，Meta CEO扎克伯格稱，Movie Gen明年會上線Meta旗下的社交媒體Instagram。他在個人Instagram賬號發佈了一段Movie Gen生成的視頻，顯示他在用腿部推舉機，隨着他開始鍛鍊，背景發生了變化。先是顯示，他在一家霓虹燈照耀的未來風格健身房鍛鍊，然後變爲，他穿着角鬥士盔甲鍛鍊，接着變爲他推動一臺燃燒的純金機器，最後變爲，他用腿部推舉一盒雞塊，周圍是一片薯條。

扎克伯格配上文字稱，Meta新的 MovieGen AI 模型可以製作和編輯視頻，每天都是煉腿的日子。該模型將於明年登陸 Instagram。

在社交媒體X，Meta官宣並演示Movie Gen的帖子下面，一些點贊高的評論顯示，網友已經在催促Meta正式發佈該模型，有網友問，不知道大家有沒有機會來試試它。 big

声明：本內容僅用作提供資訊及教育之目的，不構成對任何特定投資或投資策略的推薦或認可。更多信息

Sora劲敌！Meta最强沉浸式AI媒体模型来了，300亿参数模型支持Movie Gen视频

Sora勁敵！Meta最強沉浸式AI媒體模型來了，300億參數模型支持Movie Gen視頻

文生视频最长16秒 130亿参数音频生成模型 人工评测视频生成对Sora净胜率8.2

基于授权和公开可用数据训练 未明确何时发布 扎克伯格称明年上线Instagram

文生視頻最長16秒 130億參數音頻生成模型 人工評測視頻生成對Sora淨勝率8.2

基於授權和公開可用數據訓練 未明確何時發佈 扎克伯格稱明年上線Instagram

風險及免責聲明

聲明

文生视频最长16秒 130亿参数音频生成模型人工评测视频生成对Sora净胜率8.2

基于授权和公开可用数据训练未明确何时发布扎克伯格称明年上线Instagram

文生視頻最長16秒 130億參數音頻生成模型人工評測視頻生成對Sora淨勝率8.2

基於授權和公開可用數據訓練未明確何時發佈扎克伯格稱明年上線Instagram