貓咪的叫聲演奏爵士樂:NVIDIA宣布推出下一代人工智慧語音合成技術「Fugatto」
Fugatto 1 - Foundational Generative Audio Transformer Opus 1 (Fugatto 1 - 基礎的なジェネレーティブオーディオトランスフォーマー Opus 1)
2024年11月26日
NVIDIA新發表的生成AI音頻模型「Fugatto」是一項具革新性技術,可以創造前所未有的聲音。除了轉換現有音頻外,此模型還能產生全新的音效,為音樂製作和遊戲開發帶來新的可能性。
Fugatto:獨特的合成技術帶來無限的音響世界
Fugatto:獨特的合成技術帶來無限的音響世界
Fugatto的核心ComposableART(音頻表現轉換)系統,開拓了音頻合成的新地平。這個系統可以獨立控制指令文和任務的組合,並可生成超出過去訓練數據範圍的音頻輸出。
值得一提的是,能夠複雜組合不同音效特性的能力。研究團隊採用了指令文、幀索引和模型間的加權向量場組合等高度數學方法,成功實現這一點。例如成功創建出現實中不存在的聲音效果,如「金屬工廠機械般的苦悶呼喊」或「像狗一般咆哮的小號」。
值得一提的是,能夠複雜組合不同音效特性的能力。研究團隊採用了指令文、幀索引和模型間的加權向量場組合等高度數學方法,成功實現這一點。例如成功創建出現實中不存在的聲音效果,如「金屬工廠機械般的苦悶呼喊」或「像狗一般咆哮的小號」。
更值得關注的是,將每種音效特性視為連續尺度而非二元化的方法。結合原聲吉他和流水聲時,微調每個元素的權重可以產生完全不同的音效。此外,連續控制也適用於調整說話者的情感表達和聲音特質。
Fugatto還極具實現現有音頻處理任務的能力。它可以從MIDI數據中檢測單個音符,將它們替換為不同聲音質的歌唱,並檢測樂曲節拍,將鼓、狗吠聲、時鐘聲等音效以節奏方式安排。這些功能顯示了廣泛的應用潛力,如音樂原型製作、電子遊戲的動態配樂、國際廣告製作等。
音樂製作人兼作曲家Ido Zmishlany表示,電吉他創造了搖滾樂,採樣器創造了嘻哈樂,而人工智慧將成為開啟音樂新篇章的工具。然而,NVIDIA將Fugatto視為一種新的表達工具,而不是取代藝術家的創造性。這種態度成為追求技術創新和藝術創造共生的重要指引。
音樂製作人兼作曲家Ido Zmishlany表示,電吉他創造了搖滾樂,採樣器創造了嘻哈樂,而人工智慧將成為開啟音樂新篇章的工具。然而,NVIDIA將Fugatto視為一種新的表達工具,而不是取代藝術家的創造性。這種態度成為追求技術創新和藝術創造共生的重要指引。
對於革新的學習方法和安全性的關注
在Fugatto的開發中,NVIDIA的研究團隊面臨著尋找音頻和語言之間顯著關係的困難挑戰。傳統語言模型可以推斷如何處理來自文本數據本身的各種指示,而從音訊數據中概括其特性和性質是非常困難的。
為了應對這一挑戰,研究團隊採用了獨特的多層學習方法。首先,利用大型語言模型生成Python腳本,創建各種音頻“人物”描述的模板式和自由格式的指示語句。這些特性包括“標準”、“面向年輕人”、“面向30多歲的人”、“專業”等多種特點。此外,還生成了絕對指示,如“合成明亮聲音”,以及相對指示,如“增加該聲音的亮度”。
在構建訓練數據集方面,也採用了創新方法。利用現有的音訊理解模型生成訓練片段的“合成標題”,用自然語言量化性別、情緒、音質等特性。此外,還使用聲學處理工具量化基本頻率分佈和混響等聲學特性。
為了應對這一挑戰,研究團隊採用了獨特的多層學習方法。首先,利用大型語言模型生成Python腳本,創建各種音頻“人物”描述的模板式和自由格式的指示語句。這些特性包括“標準”、“面向年輕人”、“面向30多歲的人”、“專業”等多種特點。此外,還生成了絕對指示,如“合成明亮聲音”,以及相對指示,如“增加該聲音的亮度”。
在構建訓練數據集方面,也採用了創新方法。利用現有的音訊理解模型生成訓練片段的“合成標題”,用自然語言量化性別、情緒、音質等特性。此外,還使用聲學處理工具量化基本頻率分佈和混響等聲學特性。
比較性學習關係包括利用固定一個元素而變化其他元素的數據集,例如同一文本具有不同情感的朗讀,或不同樂器演奏相同短語。通過這種方法,模型可以學習“更明亮”聲音的特徵,以及薩克斯風和長笛音色之間微妙的差異。
經過復雜的學習過程,建立的最終數據集包含超過2,000萬個樣本和超過5萬小時的音頻數據。該模型使用32個NVIDIA張量核進行訓練,有25億參數,並在各種音質測試中展現出高度可靠的得分。
經過復雜的學習過程,建立的最終數據集包含超過2,000萬個樣本和超過5萬小時的音頻數據。該模型使用32個NVIDIA張量核進行訓練,有25億參數,並在各種音質測試中展現出高度可靠的得分。
然而,NVIDIA對於Fugatto的公開持謹慎態度。Bryan Catanzaro指出生成技術內在的風險,並強調須防止在不良用途中使用。此外,Sony、Warner、Universal等大型音樂公司起訴AI音樂生成初創企業侵犯版權的情況,以及女演員Scarlett Johansson對OpenAI因未經允許複製其聲音而提起訴訟的事例等,都顯示版權風險需要謹慎應對。
因此,Fugatto的開發旨在追求技術創新和負責任的部署平衡,為AI技術在社會實施中提供重要指導。 NVIDIA致力於追求音頻生成技術的潛力,同時試圖恰當控制其影響力,這種方法可能成為未來AI開發的一個模範。
因此,Fugatto的開發旨在追求技術創新和負責任的部署平衡,為AI技術在社會實施中提供重要指導。 NVIDIA致力於追求音頻生成技術的潛力,同時試圖恰當控制其影響力,這種方法可能成為未來AI開發的一個模範。
Fugatto的出現,為帶來全新音響表現帶來了突破性事件。然而,在這種創新背後,隱藏著著作權問題和倫理挑戰。特別是聲音複製和轉換技術可能帶來冒名頂替或假新聞等風險。NVIDIA展示的謹慎態度是適當的,但同時,這項技術的民主化也將成為重要課題。最終,科技的演進是無法阻止的。重要的是適當控制這種力量,並將其作為創意表現的新可能性來利用。
免責聲明:社區由Moomoo Technologies Inc.提供,僅用於教育目的。
更多信息
評論
登錄發表評論