share_log

抢在ChatGPT前发布语言助手!法国实验室演示自带70种情绪AI

ChatGPTの前に、言語アシスタントをリリースする!フランスのラボが70種類の感情AIを備えたデモを実演。

wallstreetcn ·  07/03 14:01

実験室Kyutaiによると、Moshiは、世界初の全世界の人々が使用できるリアルタイム生成音声AIであり、70種類の感情とスタイルで話すことができ、自作の詩を濃いフランス訛りで朗読することもできます。 Moshiモデルは、数週間以内にリリースされ、モデルコードは無料で共有されます。

本文の著者:李丹

出典:ハードAI

OpenAIは、既存の音声アシスタントによって打ち負かされています。

フランスの独立非営利AI研究室Kyutaiは、地元時間7月3日水曜日に、音声アシスタントのMoshiの実験的なプロトタイプを公開しました。 Kyutaiは、Moshiが世界初の全世界の人々が使用できるリアルタイム生成音声AIであり、Kyutaiの8人の研究チームが6か月かけてゼロから開発したと紹介しています。

Moshiには、人間に似たさまざまな感情があります。 Kyutaiの科学者たちは、Moshiシステムが70種類の感情とスタイルで話すことができると述べています。彼らは、Moshiを使ってエベレスト山を登るアドバイスを提供したり、Moshiが自作の詩を濃いフランス訛りで朗読する方法を示したりしました。

Kyutaiは、火曜日の夜、Moshiのインタラクティブデモをウェブサイトで公開できるようになりました。火曜日から、Moshiをオンラインで無料でテストできるようになりました。 Kyutaiは、AIのオープンな研究とエコシステム全体の発展に貢献することを目指しており、Moshiモデルのコードと重みは間もなく無料で共有されます。代表者の1人が、Moshiモデルと関連する研究は今後数週間で公開されるだろうと述べていますが、具体的な日付は明らかにしていません。

Kyutaiは、Moshiが数字の世界で音声の使用方法を根本的に変える可能性があると考えており、感情表現や多彩な音を介した相互作用の面で、テキストを音声に変換する機能が非常に優れていると説明しています。

KyutaiのCEOであるPatrick Pérezは、Moshiが「話しながら考えている」と述べ、「Moshiには巨大な可能性があると信じており、私たちがマシンとのコミュニケーション方法を変えることができると思っています。」

研究者のLucas Beyerは、ソーシャルメディアで投稿し、KyutaiのMoshiが最初のリアルタイムオーディオグランド言語モデル(LLM)であると述べています。 Kyutaiのデモでは、Moshiはほとんど遅延がなく、スピーカーを何度も中断することさえありました。実際、Moshiは返信するのが早すぎるようです。そして、Moshiは完全にオープンソースです。音質はまだ機械化されているようですが、最初のバージョンとしては十分なパフォーマンスを発揮していると言えるでしょう。全体的にかなりクールです。

Beyerは、モデルに関する一連のライブスコアについて説明し、macbookでモデルを使う際にリアルタイムのリジェクションミスがあることを指摘しましたが、Kyutaiが安全調整にやや早すぎる可能性があることを示しています。ただし、デモがリアルタイムであることを確認しているだけでなく、自由なプレイをしていることも証明しています。

あるコメントによると、欧米文化にサイバーパンクの方法で日本語の単語が組み込まれていることが面白い。 Kyutaiは日本語で「球体」を意味し、Moshiは電話中のスラングであるため、「こんにちは球体」という意味になります。

MoshiはChatGPTの最新のチャレンジャーと見なされています。Anthropic、Cohere、Googleを含む多くのスタートアップ企業やテクノロジーギャングたちが、モデルとGPT-4の競争を推進しています。新しい技術が危険をもたらすと懸念する業界専門家もいます。

Moshiの発売により、KyutaiはOpenAIに先駆けて音声アシスタントを発売した先駆者になりました。以前、OpenAIは、ロボットチャットツールChatGPTで同様の機能を提供することを計画しており、進化したGPT-4oモデルに基づいた音声アシスタントを公開することを2か月以上前に公開しました。

OpenAIは今年5月中旬に発表された際、言語アシスタントの演出は、実際の大人のように振る舞い、聴覚、視覚、感情を変えることができ、特に即時にリクエストに応答することができることが最も重要でした。それだけでなく、寝る前の物語を話すことができて、見た目から人々の感情を観察し、緊張した気分を落ち着かせるまるで友達のような存在のような数学教師のように代数方程式を指導することができるため、観客の一部は映画『彼女』のAIバーチャルアシスタントを思い出しました。

しかし、1か月以上経った後、OpenAIは上記の音声アシスタントをリリースすることを延期すると発表しました。 6月25日の先週火曜日、OpenAIは、ChatGPT音声アシスタント機能のリリースを延期する理由は、数百万人のユーザーからのリクエストを安全かつ効率的に処理できるようにする必要があり、1か月かかると述べました。

あるコメントによると、KyutaiのMoshiの登場は、OpenAIがまだ公開していない顧客製品をオープンソース化したことになり、Kyutaiに敬意を表するとのことです。

美系キャピタルの背景を持つMicrosoftに対して、Kyutaiは汎用AIの研究に専念しており、去年11月に出生を発表してから3億ユーロの資金を獲得し、そのうち主要なものはヨーロッパの産業資本からのものです。

Kyutaiは、フランスの富豪、Xavier NielがAI分野に2億ユーロを投資することを宣言したオブジェクトの1つです。 Nielが所有する電気通信グループIliadは、Kyutaiプロジェクトに1億ユーロを投資することを発表しました。 フランスの物流会社であるCMA CGMのCEOであるRodolphe SaadéもKyutaiに1億ユーロを投資しています。 前GoogleのCEOであるEric SchmidtもKyutaiに投資しているが、金額は明らかにされていない。

Nielは、Moshiが欧州がAI開発のグローバルな参加者になることを示していると述べ、「Kyutaiが今日紹介したすべての製品は、世界で最高のものであり、私たちは欧州でこの製品を紹介できることを誇りに思っています。」

Kyutaiの最高科学責任者であるHervé Jégouは、索引と透かしのツールを使用して、AIによって生成されたオーディオを識別し、追跡することになると述べています。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする