Nvidia 宣布用於音樂和音頻的 AI 模型,可以改變聲音並產生新聲音
英維達(納斯達克: 尼夫達 ) 宣布了一個新的 AI 模型「Fugatto」,用於為製作音樂,電影和視頻遊戲的人生成音樂和音頻。
據該公司稱,Fugatto(基礎生成音頻變壓器 Opus)使用任何文本和音頻文件的組合來生成或轉換提示中描述的任何音樂,語音和聲音混合物。
例如,AI 模型可以根據文本提示創建音樂,從現有歌曲中刪除或添加樂器,更改聲音和情緒,甚至產生以前從未聽到過的聲音,該公司在周一部博客中表示表示。
NVIDIA 應用音頻研究經理兼管弦樂團指揮和作曲家 Rafael Valle 說:「我想創建一個能夠以與人類一樣理解和產生聲音的模型。
Nvidia 指出,廣告代理商可以應用 Fugatto 快速將現有廣告活動定位到多個地區,並將不同的口音和情緒應用於敘述中。此外,視頻遊戲開發人員可以使用 AI 模型修改遊戲中的預先記錄的資產,以匹配用戶在玩遊戲時的變更動作。
Fugat 可以發出小號聲和薩克斯風聲。該公司補充說,研究人員發現,通過精細調整和少量歌唱數據,Fugat 可以處理以前尚未經過訓練的任務,例如從文本產生高質量的歌聲。
根據 NVIDIA 的說法,富加托的完整版本使用了 2.5 億個參數,並在配備 32 個 NVIDIA H100 張力量核心 GPU 的 NVIDIA DGX 系統銀行上進行了培訓。總體而言,這種模型的發展需要一年多時間。
富加托是跑道和元平台等一家初創公司( 梅塔 它有可能會與來自大公司的類似技術競爭,例如)。10 月,Facebook 所有者推出了一個名為 Movie Gen 的 AI 模型,該模型可以根據用戶提示創建逼真的視頻和音頻剪輯已經宣布了。
2 月,ChatGPT 的開發人員 OpenAI 宣布了 Sora,它可以通過文本說明創建逼真和富有想像力的場景。微軟 (MSFT) 由) 支持的該公司的文本轉視頻模型尚未向公眾發布。
據該公司稱,Fugatto(基礎生成音頻變壓器 Opus)使用任何文本和音頻文件的組合來生成或轉換提示中描述的任何音樂,語音和聲音混合物。
例如,AI 模型可以根據文本提示創建音樂,從現有歌曲中刪除或添加樂器,更改聲音和情緒,甚至產生以前從未聽到過的聲音,該公司在周一部博客中表示表示。
NVIDIA 應用音頻研究經理兼管弦樂團指揮和作曲家 Rafael Valle 說:「我想創建一個能夠以與人類一樣理解和產生聲音的模型。
Nvidia 指出,廣告代理商可以應用 Fugatto 快速將現有廣告活動定位到多個地區,並將不同的口音和情緒應用於敘述中。此外,視頻遊戲開發人員可以使用 AI 模型修改遊戲中的預先記錄的資產,以匹配用戶在玩遊戲時的變更動作。
Fugat 可以發出小號聲和薩克斯風聲。該公司補充說,研究人員發現,通過精細調整和少量歌唱數據,Fugat 可以處理以前尚未經過訓練的任務,例如從文本產生高質量的歌聲。
根據 NVIDIA 的說法,富加托的完整版本使用了 2.5 億個參數,並在配備 32 個 NVIDIA H100 張力量核心 GPU 的 NVIDIA DGX 系統銀行上進行了培訓。總體而言,這種模型的發展需要一年多時間。
富加托是跑道和元平台等一家初創公司( 梅塔 它有可能會與來自大公司的類似技術競爭,例如)。10 月,Facebook 所有者推出了一個名為 Movie Gen 的 AI 模型,該模型可以根據用戶提示創建逼真的視頻和音頻剪輯已經宣布了。
2 月,ChatGPT 的開發人員 OpenAI 宣布了 Sora,它可以通過文本說明創建逼真和富有想像力的場景。微軟 (MSFT) 由) 支持的該公司的文本轉視頻模型尚未向公眾發布。
免責聲明:社區由Moomoo Technologies Inc.提供,僅用於教育目的。
更多信息
評論
登錄發表評論