①エヌビディアは、新しいAIモデルであるFugattoを開発しました。このモデルは音声効果を作り出し、発音方法を変更し、自然言語のヒントを使って音楽を生成することができます。②Fugattoは音声を合成し、音楽に効果音を加えることができ、ビデオや画像生成モデルの補完と見なされています。
財聯社は11月26日に報じたところによると、エヌビディア(Nvidia)は新しい人工知能(AI)モデルを開発し、音声効果を作り出し、人の発音方法を変更し、自然言語のヒントを使って音楽を生成できると報じられました。
このモデルはFugattoと命名され、つまりFoundational Generative Audio Transformer Opus 1の略であり、研究プロジェクトです。エヌビディアは、この技術の公開計画については発表しないかもしれませんが、音楽、エンターテイメント、翻訳サービスなどの業種に幅広い影響を及ぼす可能性があります。
エヌビディアの深層学習研究副社長であるBryan Catanzaroはインタビューで「Fugattoの最も興奮する点は、ある種の音を出すようにモデルを要求できるところです。これは本当に想像力を刺激します。」と述べました。
Catanzaroは、市場には音声合成ができるモデルや音楽に効果を追加できるモデルがありますが、Fugattoはそれら全てが可能だと説明しました。Catanzaroは、ビデオや画像生成モデル(例:Stability AIのStable Video DiffusionやOpenAIのSora)の補完と考えることができると述べました。
「基本的な改善点はここにあります……私たちは言語を使って音声を合成できるようになりました。これにより、驚くべき音声を作成するための新しい展望が開けました。」と彼は補足しました。
エヌビディアによると、Fugattoは新しい性質を持つ最初の基本モデルであり、訓練された要素を組み合わせ、"自由形式の指示"に従うことができるとのことです。
具体的には、このモデルは標準のテキスト提示で音声を生成したり、アップロードされた音声ファイルを処理したりすることができます。そのため、話す人物のファイルがある場合は、その人物の話を別の言語に翻訳すると同時に、その声に似せることができます。また、簡単な旋律を選択して、管弦楽演奏のように聞こえるようにしたり、音楽に異なるビートを追加したりすることも可能です。
その他、お好きな音声でモデルに読み上げさせる文書をアップロードすることもできます。さらに重要なのは、感情の要素を含む音声をモデルに指示することができることです。
ただし、Catanzaro氏はこのモデルが常に完璧というわけではないと補足しています。また、画像や動画を生成するモデルと同様に、Fugattoもアーティストやサウンドエンジニア、関連者たちの懸念を引き起こすかもしれません。しかし、Catanzaro氏は、この技術が音楽家を支援することを願っていると指摘しています。
「私はこれが芸術家たちが探求する新しいツールになることを願っています。」「音声は常に有益な探索分野だと思っています。新しい音声ツールを手にすると、時には新しい音楽形式を手に入れることができます。」と語った。