Meta称,Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”,基于授权和公开可用数据训练,以每秒16帧的速度文生视频最长16秒;130亿参数模型支持音频生成;人工评测时,Movie Gen的视频生成能力对Sora净胜率8.2。Meta未明确何时发布,扎克伯格称明年上线Instagram。
本文作者:李丹
来源:硬AI
OpenAI的Sora迎来劲敌,Meta推出号称最先进的媒体基础模型Movie Gen。
Meta称,Movie Gen是公司“针对媒体的突破性生成式AI研究”,它囊括了图像、视频和音频等模态,用户只需输入文本,就可以制作自定义的视频和声音、编辑现有视频,以及将个人图像转换为独特的视频。Movie Gen执行这些任务的表现在人类评估中由于业内类似模型。
Meta介绍,Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”,综合了公司第一波生成式AI媒体研究的Make-A-Scene 系列模型,即可创建图像、音频、视频和 3D 动画的模型,以及随着扩散模型出现而针对Llama Image 基础模型进行的第二波研究模型,即可实现更高质量图像和视频生成以及图像编辑的模型。
文生视频最长16秒 130亿参数音频生成模型 人工评测视频生成对Sora净胜率8.2
Meta概括,Movie Gen 具有四种功能:视频生成、个性化视频生成、精确视频编辑、音频生成。
对于视频生成,Meta介绍,用户只要提供一个文本的提示词,Movie Gen就可以利用针对文本转图像和文本转视频进行了优化的联合模型,创建高清的高质量图像和视频。Movie Gen的视频模型有300亿参数,这个转换模型能以每秒16帧的速度生成最长16秒的视频。
Meta称,发现这些模型可以推理物体的运动、拍摄主体与物体之间的相互作用,以及相机的运动,并且可以学习各种概念了解有哪些合理的运动,因此,它们成为同类中最先进的模型。在介绍该功能时,Meta展示了多个10秒长度的视频短片,包括一只像萌翻网络的弹跳猪“Moo Deng”那样的小河马游来游去。
华尔街见闻注意到,单从生成视频的最大长度看,Movie Gen还不敌今年2月OpenAI发布的Sora。Sora令业界震撼的一点是,可以创建长达60秒的文生视频,。不过,相比Meta去年11月官宣的视频模型Emu Video,Movie Gen确实进步不小。Emu Video只能以每秒16帧的速度生成最长4秒的视频。
除了直接文生视频,Movie Gen还有出色的个性化视频制作能力。Meta介绍,其扩展了前述基础模型,支持生成个性化视频。用户可以提供某个人的图像,配合文本的提示词,让Move Gen生成的视频包含参考图像中的人物,以及符合文本提示的视觉细节。Meta称,在创建保留人类身份和动作的个性化视频方面,其模型取得了最先进的成果。
Meta展示的一个视频显示,用户可以提供一个女孩的照片,输入文字“一名身穿粉色马甲的女DJ播放唱片,她身旁有一只猎豹”,然后就生成了以照片中女孩形象的DJ打碟,以及一只猎豹陪伴。
在精确视频编辑方面,Meta称,Movie Gen采用了同一基础模型的编辑变体模型,在用户输入视频和文本提示词后,精确执行任务,生成所需的输出。它将视频生成与高级图像编辑相结合,执行局部编辑,例如添加、删除或替换元素,以及诸如背景或样式修改的全局更改。与需要专业技能或缺乏生成精确度的传统工具不同,Movie Gen 保留了原始内容,仅针对相关像素编辑。
Meta提供的示例之一是,用户输入,让企鹅穿上有英国女王维多利亚在位时期服饰风格的服装,Movie Gen生成的企鹅穿上了带蕾丝的红色女裙。
对于音频生成,Meta称,训练了一个130亿参数的音频生成模型,该模型可以接受视频和可选的文本提示词,生成长达 45 秒的高质量高保真音频,包括环境音、拟声音效(Foley)和乐器背景音乐,所有这些都与视频内容同步。此外,Meta引入了一种音频扩展技术,可以为任意长度的视频生成连贯的音频,在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了最先进的性能。
Meta提供的一个例子是,生成在吉他音乐的伴奏下,全地形车(ATV)引擎轰鸣加速的声音,还有一个例子是,管弦乐声中有树叶沙沙作响和树枝折断的声音。
Meta还展示了针对以上四种能力进行的A/B对比测试人工评估结果,下图显示的净正值胜率代表,相比Sora等竞品模型,人类评估者更青睐Movie Gen模型生成的结果。在直接生成视频这个功能方面,Movie Gen相比Sora的净胜率达到8.2。
基于授权和公开可用数据训练 未明确何时发布 扎克伯格称明年上线Instagram
Movie Gen 是基于哪些信息进行训练的?Meta 的声明没有说明具体细节,只是说:“我们基于授权和公开可用的数据集对这些模型进行了训练。”
有评论指出,对生成式 AI 工具而言,训练数据的来源以及从网上抓取哪些数据合理仍然是有争议的问题,而且公众很少知道使用哪些文本、视频或音频片段创建了任何大模型。
还有评论称,Meta说训练用的数据集是“专有/商业敏感”的,未提供细节,那么只能猜测,数据包括很多Instagram 和 Facebook 平台的视频,加上一些Meta合作伙伴的内容,以及其他很多未得到充分保护的内容、也就是所谓的“公开可用”内容。
对于发布时间,Meta本周五并未明确Movie Gen何时面向大众推出,只是含糊地说“可能未来发布”。今年2月OpenAI官宣Sora后迄今还未真正向公众开放使用,也并未透露任何计划将要发布的日期。
不过,Meta CEO扎克伯格称,Movie Gen明年会上线Meta旗下的社交媒体Instagram。他在个人Instagram账号发布了一段Movie Gen生成的视频,显示他在用腿部推举机,随着他开始锻炼,背景发生了变化。先是显示,他在一家霓虹灯照耀的未来风格健身房锻炼,然后变为,他穿着角斗士盔甲锻炼,接着变为他推动一台燃烧的纯金机器,最后变为,他用腿部推举一盒鸡块,周围是一片薯条。
扎克伯格配上文字称,Meta新的 MovieGen AI 模型可以制作和编辑视频,每天都是炼腿的日子。该模型将于明年登陆 Instagram。
在社交媒体X,Meta官宣并演示Movie Gen的帖子下面,一些点赞高的评论显示,网友已经在催促Meta正式发布该模型,有网友问,不知道大家有没有机会来试试它。
Meta稱,Movie Gen是「最先進、沉浸式效果最佳的故事講述模型套件」,基於授權和公開可用數據訓練,以每秒16幀的速度文生視頻最長16秒;130億參數模型支持音頻生成;人工評測時,Movie Gen的視頻生成能力對Sora淨勝率8.2。Meta未明確何時發佈,扎克伯格稱明年上線Instagram。
本文作者:李丹
來源:硬AI
OpenAI的Sora迎來勁敵,Meta推出號稱最先進的媒體基礎模型Movie Gen。
Meta稱,Movie Gen是公司「針對媒體的突破性生成式AI研究」,它囊括了圖像、視頻和音頻等模態,用戶只需輸入文本,就可以製作自定義的視頻和聲音、編輯現有視頻,以及將個人圖像轉換爲獨特的視頻。Movie Gen執行這些任務的表現在人類評估中由於業內類似模型。
Meta介紹,Movie Gen是「最先進、沉浸式效果最佳的故事講述模型套件」,綜合了公司第一波生成式AI媒體研究的Make-A-Scene 系列模型,即可創建圖像、音頻、視頻和 3D 動畫的模型,以及隨着擴散模型出現而針對Llama Image 基礎模型進行的第二波研究模型,即可實現更高質量圖像和視頻生成以及圖像編輯的模型。
文生視頻最長16秒 130億參數音頻生成模型 人工評測視頻生成對Sora淨勝率8.2
Meta概括,Movie Gen 具有四種功能:視頻生成、個性化視頻生成、精確視頻編輯、音頻生成。
對於視頻生成,Meta介紹,用戶只要提供一個文本的提示詞,Movie Gen就可以利用針對文本轉圖像和文本轉視頻進行了優化的聯合模型,創建高清的高質量圖像和視頻。Movie Gen的視頻模型有300億參數,這個轉換模型能以每秒16幀的速度生成最長16秒的視頻。
Meta稱,發現這些模型可以推理物體的運動、拍攝主體與物體之間的相互作用,以及相機的運動,並且可以學習各種概念了解有哪些合理的運動,因此,它們成爲同類中最先進的模型。在介紹該功能時,Meta展示了多個10秒長度的視頻短片,包括一隻像萌翻網絡的彈跳豬「Moo Deng」那樣的小河馬游來游去。
華爾街見聞注意到,單從生成視頻的最大長度看,Movie Gen還不敵今年2月OpenAI發佈的Sora。Sora令業界震撼的一點是,可以創建長達60秒的文生視頻,。不過,相比Meta去年11月官宣的視頻模型Emu Video,Movie Gen確實進步不小。Emu Video只能以每秒16幀的速度生成最長4秒的視頻。
除了直接文生視頻,Movie Gen還有出色的個性化視頻製作能力。Meta介紹,其擴展了前述基礎模型,支持生成個性化視頻。用戶可以提供某個人的圖像,配合文本的提示詞,讓Move Gen生成的視頻包含參考圖像中的人物,以及符合文本提示的視覺細節。Meta稱,在創建保留人類身份和動作的個性化視頻方面,其模型取得了最先進的成果。
Meta展示的一個視頻顯示,用戶可以提供一個女孩的照片,輸入文字「一名身穿粉色馬甲的女DJ播放唱片,她身旁有一隻獵豹」,然後就生成了以照片中女孩形象的DJ打碟,以及一隻獵豹陪伴。
在精確視頻編輯方面,Meta稱,Movie Gen採用了同一基礎模型的編輯變體模型,在用戶輸入視頻和文本提示詞後,精確執行任務,生成所需的輸出。它將視頻生成與高級圖像編輯相結合,執行局部編輯,例如添加、刪除或替換元素,以及諸如背景或樣式修改的全局更改。與需要專業技能或缺乏生成精確度的傳統工具不同,Movie Gen 保留了原始內容,僅針對相關像素編輯。
Meta提供的示例之一是,用戶輸入,讓企鵝穿上有英國女王維多利亞在位時期服飾風格的服裝,Movie Gen生成的企鵝穿上了帶蕾絲的紅色女裙。
對於音頻生成,Meta稱,訓練了一個130億參數的音頻生成模型,該模型可以接受視頻和可選的文本提示詞,生成長達 45 秒的高質量高保真音頻,包括環境音、擬聲音效(Foley)和樂器背景音樂,所有這些都與視頻內容同步。此外,Meta引入了一種音頻擴展技術,可以爲任意長度的視頻生成連貫的音頻,在音頻質量、視頻到音頻對齊和文本到音頻對齊方面總體上實現了最先進的性能。
Meta提供的一個例子是,生成在吉他音樂的伴奏下,全地形車(ATV)引擎轟鳴加速的聲音,還有一個例子是,管絃樂聲中有樹葉沙沙作響和樹枝折斷的聲音。
Meta還展示了針對以上四種能力進行的A/B對比測試人工評估結果,下圖顯示的淨正值勝率代表,相比Sora等競品模型,人類評估者更青睞Movie Gen模型生成的結果。在直接生成視頻這個功能方面,Movie Gen相比Sora的淨勝率達到8.2。
基於授權和公開可用數據訓練 未明確何時發佈 扎克伯格稱明年上線Instagram
Movie Gen 是基於哪些信息進行訓練的?Meta 的聲明沒有說明具體細節,只是說:「我們基於授權和公開可用的數據集對這些模型進行了訓練。」
有評論指出,對生成式 AI 工具而言,訓練數據的來源以及從網上抓取哪些數據合理仍然是有爭議的問題,而且公衆很少知道使用哪些文本、視頻或音頻片段創建了任何大模型。
還有評論稱,Meta說訓練用的數據集是「專有/商業敏感」的,未提供細節,那麼只能猜測,數據包括很多Instagram 和 Facebook 平台的視頻,加上一些Meta合作伙伴的內容,以及其他很多未得到充分保護的內容、也就是所謂的「公開可用」內容。
對於發佈時間,Meta本週五並未明確Movie Gen何時面向大衆推出,只是含糊地說「可能未來發布」。今年2月OpenAI官宣Sora後迄今還未真正向公衆開放使用,也並未透露任何計劃將要發佈的日期。
不過,Meta CEO扎克伯格稱,Movie Gen明年會上線Meta旗下的社交媒體Instagram。他在個人Instagram賬號發佈了一段Movie Gen生成的視頻,顯示他在用腿部推舉機,隨着他開始鍛鍊,背景發生了變化。先是顯示,他在一家霓虹燈照耀的未來風格健身房鍛鍊,然後變爲,他穿着角鬥士盔甲鍛鍊,接着變爲他推動一臺燃燒的純金機器,最後變爲,他用腿部推舉一盒雞塊,周圍是一片薯條。
扎克伯格配上文字稱,Meta新的 MovieGen AI 模型可以製作和編輯視頻,每天都是煉腿的日子。該模型將於明年登陸 Instagram。
在社交媒體X,Meta官宣並演示Movie Gen的帖子下面,一些點贊高的評論顯示,網友已經在催促Meta正式發佈該模型,有網友問,不知道大家有沒有機會來試試它。