Nvidia 宣布推出音乐和音频人工智能模型,该模型可以改变声音并生成新声音
英伟达(纳斯达克: NVDA )宣布了一种新的人工智能模型 “Fugatto”,用于为制作音乐、电影和视频游戏的人生成音乐和音频。据该公司称,Fugatto(Foundational Generative Audio Transformer Opus)使用文本和音频文件的任意组合来生成或转换提示中描述的音乐、语音和声音的任意组合。例如,该公司在周一的博客中表示,人工智能模型可以根据文字提示创作音乐,从现有歌曲中删除或添加乐器,改变人声口音和情绪,甚至生成你从未听过的声音声明。NVIDIA应用音频研究经理、管弦乐团指挥兼作曲家拉斐尔·瓦莱说:“我想创建一个能以与人类相同的方式理解和生成声音的模型。”Nvidia指出,广告公司可以应用Fugatto将现有广告系列快速定位到多个地区,并在叙事中应用不同的口音和情感。此外,视频游戏开发者可以使用人工智能模型修改游戏中预先录制的资产,以匹配用户在玩游戏时不断变化的动作。Fugat 可以发出小号的声音和萨克斯管的声音。该公司补充说,研究人员发现,通过微调和少量歌唱数据,Fugat可以处理以前未经训练的任务,例如从文本中生成高质量的歌声。根据英伟达的说法,完整版的Fugatto使用了25亿个参数,并在配备32个NVIDIA H100 Tensor Core GPU的NVIDIA DGX系统库上进行了训练。总体而言,该模型的开发花了一年多。Fugatto 是一家初创公司,例如 Runway 和 Meta Platforms ( 元 它有可能与大公司的类似技术竞争,例如)。10月,Facebook所有者推出了一种名为Movie Gen的人工智能模型,该模型可以根据用户提示创建逼真的视频和音频片段它被宣布了。2月,ChatGPT的开发者OpenAI宣布了Sora,它可以根据文本说明创建逼真和富有想象力的场景。微软 (MSFT) 该公司的文字转视频模式(由)支持,尚未向公众发布。
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。
更多信息
9