エヌビディア(NVDA.US)は、音楽や音声を生成するための新しい人工知能(AI)モデルを発表しました。これは音楽、映画、ビデオゲームの制作に関わる人々にサービスを提供することを目的としています。
智通財經アプリによると、エヌビディア(NVDA.US)は、音楽や音声を生成するための新しい人工知能(AI)モデルを発表しました。これは音楽、映画、ビデオゲームの制作に関わる人々にサービスを提供することを目的としています。
エヌビディアの説明によると、このモデルの名前はFugatto(Foundational Generative Audio Transformer Opus)で、任意のテキストや音声ファイルを使用して音楽や音を生成または変更できます。
例えば、このモデルはテキストのヒントに基づいて音楽フレーズを作成したり、既存の曲から楽器を削除したり追加したり、音声のアクセントや感情を変えたり、聞いたことのない音を出したりすることができます。
音声研究マネージャーでオーケストラ指揮者兼作曲家のラファエル・バレ氏は、「私たちは人間のように音を理解し、生成できるモデルを作りたいと考えています。」と述べています。
エヌビディアによると、広告代理店はFugattoを使用して複数の地域の既存の広告を迅速に特定し、様々なアクセントや感情をナレーションに加えることができます。さらに、ビデオゲーム開発者は人工知能モデルを使用して、ゲーム中の事前に録音されたアセットを変更し、ユーザーのゲームプレイ中のダイナミックな変化に適応させることができます。
Fugattoはトランペットから犬の吠え声、サックスから猫の鳴き声を出すことができます。会社は、微調整とわずかな歌唱データにより、未訓練のタスク(テキストから高品質の歌声を生成するなど)を処理できることを発見したと述べています。
エヌビディアは、Fugattoの完全なバージョンは25億のパラメータを使用し、32個のNvidia H100 Tensor Core GPUを搭載したNvidia DGXシステムでトレーニングを行いました。このモデルの全体的な作業には1年以上かかりました。
Fugattoは、Runwayなどのスタートアップ企業やMeta Platforms(META.US)などの大手企業の類似技術と競合する可能性があります。10月、MetaはMovie Genという名前の人工知能モデルをリリースしました。このモデルはユーザーのプロンプトに基づいてリアルなビデオや音声クリップを作成することができます。
今年2月、ChatGPTの製造元であるOpenAIはSoraを発表しました。このモデルはテキスト指示に基づいて、リアルで想像力に富んだシーンを作成することができます。このマイクロソフト(MSFT.US)の支援を受けている企業は、まだテキストをビデオに変換するモデルを一般公開していません。