Nvidia、音声を変更したり新しいサウンドを生成したりできる音楽・オーディオ向けAIモデルを発表
Nvidia ( NASDAQ: NVDA ) は、音楽、映画、ビデオゲームを制作する人々を対象に、音楽とオーディオを生成するための新しい AI モデル「Fugatto」を発表しました。
同社によれば、 Fugatto (Foundational Generative Audio Transformer Opus) は、テキストとオーディオ ファイルの任意の組み合わせを使用して、プロンプトで説明された音楽、音声、サウンドの任意のミックスを生成または変換します。
例えば、AIモデルはテキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、さらにはこれまで聞いたことのない音を生成したりすることもできると、同社は月曜日のブログで述べた。
「人間と同じように音を理解し、生成するモデルを作りたかったのです」と、エヌビディアの応用オーディオ研究マネージャーであり、オーケストラの指揮者、作曲家でもあるラファエル・ヴァッレ氏は語る。
Nvidia は、広告代理店が Fugatto を適用して既存のキャンペーンを複数の地域に素早くターゲティングし、ナレーションにさまざまなアクセントや感情を適用できると指摘しました。さらに、ビデオ ゲーム開発者は AI モデルを使用して、タイトル内の事前記録されたアセットを、ユーザーがゲームをプレイする際の変化するアクションに合わせて変更することができます。
フガットはトランペットの鳴き声やサックスの鳴き声を出すことができる。研究者らは、微調整と少量の歌唱データにより、テキストから高品質の歌声を生成するなど、事前に訓練されていないタスクをフガットが処理できることを発見したと同社は付け加えた。
NVIDIA によれば、Fugatto のフルバージョンは 25 億のパラメータを使用し、32 基の NVIDIA H100 Tensor Core GPU を搭載した NVIDIA DGX システム バンクでトレーニングされたという。このモデルの開発には全体で 1 年以上かかった。
Fugatto は、Runway などの新興企業や、Meta Platforms ( META ) などの大企業の同様の技術と競合する可能性があります。10 月、Facebook の所有者は、ユーザーのプロンプトに基づいてリアルな動画や音声クリップを作成できる Movie Gen と呼ばれる AI モデルを発表しました。
2月に、ChatGPTの開発元であるOpenAIは、テキストの指示からリアルで想像力豊かなシーンを作成できるSoraを発表しました。マイクロソフト( MSFT )が支援するこの企業によるテキストからビデオへのモデルはまだ一般に公開されていません。
同社によれば、 Fugatto (Foundational Generative Audio Transformer Opus) は、テキストとオーディオ ファイルの任意の組み合わせを使用して、プロンプトで説明された音楽、音声、サウンドの任意のミックスを生成または変換します。
例えば、AIモデルはテキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、さらにはこれまで聞いたことのない音を生成したりすることもできると、同社は月曜日のブログで述べた。
「人間と同じように音を理解し、生成するモデルを作りたかったのです」と、エヌビディアの応用オーディオ研究マネージャーであり、オーケストラの指揮者、作曲家でもあるラファエル・ヴァッレ氏は語る。
Nvidia は、広告代理店が Fugatto を適用して既存のキャンペーンを複数の地域に素早くターゲティングし、ナレーションにさまざまなアクセントや感情を適用できると指摘しました。さらに、ビデオ ゲーム開発者は AI モデルを使用して、タイトル内の事前記録されたアセットを、ユーザーがゲームをプレイする際の変化するアクションに合わせて変更することができます。
フガットはトランペットの鳴き声やサックスの鳴き声を出すことができる。研究者らは、微調整と少量の歌唱データにより、テキストから高品質の歌声を生成するなど、事前に訓練されていないタスクをフガットが処理できることを発見したと同社は付け加えた。
NVIDIA によれば、Fugatto のフルバージョンは 25 億のパラメータを使用し、32 基の NVIDIA H100 Tensor Core GPU を搭載した NVIDIA DGX システム バンクでトレーニングされたという。このモデルの開発には全体で 1 年以上かかった。
Fugatto は、Runway などの新興企業や、Meta Platforms ( META ) などの大企業の同様の技術と競合する可能性があります。10 月、Facebook の所有者は、ユーザーのプロンプトに基づいてリアルな動画や音声クリップを作成できる Movie Gen と呼ばれる AI モデルを発表しました。
2月に、ChatGPTの開発元であるOpenAIは、テキストの指示からリアルで想像力豊かなシーンを作成できるSoraを発表しました。マイクロソフト( MSFT )が支援するこの企業によるテキストからビデオへのモデルはまだ一般に公開されていません。
免責事項:このコミュニティは、Moomoo Technologies Inc.が教育目的でのみ提供するものです。
さらに詳しい情報
コメント
サインインコメントをする