share_log

AI开始为数字人注入灵魂

AIはデジタルな人々に魂を注ぎ込み始めています

TechWeb ·  2023/05/14 21:21

ここ数日で、国内の「人気のない歌手」がAIカバーで再び人気を博しています。

ステーションBのネチズンは、AIモデルを使って歌手のSun YanziのAIクローンを作成しました。これは実際にはカーナビゲーションシステムの「Lin Zhiling」や「Guo Degang」に似ています。歌手自身のオーディオをトレーニングに使って、まったく同じ音色の「ステファニー・サン」を作りましょう。

そして、アイドルが自分の好きな曲を歌ってほしいという願いが、奇妙な方法で実現しました。

海外でのゲームプレイはさらにとんでもないです。

米国で180万人のフォロワーを持つ23歳の女性インフルエンサーは、GPT-4を使って自分のAIスプリットを再現し、同時に1,000人以上のネチズンと恋に落ちました。料金は1分あたり1ドルです。

たった1週間で、彼女はなんと71,600ドルを稼ぎました。

そして、それはそれよりはるかに多いです。今、彼女の「ボーイフレンド」は急速に増えています。現在、人口は1万人近くに増え、彼女が彼女と「恋に落ちる」ために列に並んで待ってから96時間が経ちました。

一部のアナリストは、トレンドによると、彼女の月収500万ドルは難しくないと考えています。技術的な制限がなければ、彼女が稼いでいるお金はおそらく天文学的な数字になるでしょう。

これらの現象は、AI+によってもたらされる新しい技術的利益の時代が急速に到来していることをすでに十分に説明できます。

01 デジタル人材の軍隊が生放送に押し寄せました

ライブストリーミングは、仮想IPの収益化の最も有望なシナリオです。

Z世代によるソーシャル、ビデオ、オンラインショッピングのツールの使用の深さは、ネットワーク全体の平均をはるかに上回っています。デジタルの人々と仮想空間を組み合わせた新しいゲームプレイは、彼らに体験感と双方向性をもたらしました。仮想IPのコアファンのほとんどは18〜24歳の若者です。

この傾向により、ブランドは製品の境界を打ち破る機会を得ました。

2020年、バーチャルシンガーのルオ・ティアニとリー・シェングリンが淘宝の生放送に来て、バウシュラム、ミデア、ロクシタンなどのブランドに商品を届けました。生放送の視聴者数は270万人に達し、200万人近くが視聴料を支払いました。

これは当時大きな議論を巻き起こし、仮想デジタルライブストリーミングの時代が到来しました。

そして、今年、ChatGPTによって引き起こされた人工知能モデルブームにより、仮想デジタルヒューマン分野はさらに目覚ましい爆発的な発展を遂げました。

生放送室に多数のバーチャルデジタル人が集まり始めました。

今年の4月、Tianyu Mathematicsの仮想デジタルパーソン「」がChatGPTモデルアクセスを完了し、生放送デビューしました。顧客の質問にリアルタイムで回答できるだけでなく、さまざまな質問に基づいてさまざまな質問に個別に回答することもできます。

短いビデオでは、このようなシーンがたくさんありました。会社のオフィス全体が空で、机の列に何十ものコンピューター画面があり、生放送が表示されています...

この会社は、事前に用意された2Dの超現実的なアバター、言葉、背景のみを使用して、1日中生放送することができます。個々の結果は生放送ほど良くはありませんが、コストはとてつもなく低く、超低コストで複製することもできます。ボリュームで勝つことは、AIが横たわっている間にお金を稼ぐことは実際には不可能ではありません。

これらすべては、デジタル・ピープルの分野で「AI+」に基づくコンテンツ効率革命が起きていることを示しています。

バーチャルデジタル人材には、制作技術、応用シナリオ、イメージの特性に応じてさまざまな種類があります。

人気の3Dアイドルとは異なり、生放送で話す2Dリアルなデジタルの人のほとんどは、ライブプロトタイプの音と表現に基づいています。本物か偽物かはわかりませんが、制作コストはエンターテイメント業界に参入したA-Soul IPのそれよりはるかに低いです。

バーチャルアンカーは、1日7×24時間ライブストリーミング作業を行うことができ、人が入れ替わることを心配せずにオンコールできるため、ライブストリーミング業務の人件費を削減できます。

その背景には、デジタルヒューマン生産プロセスを変革するAIGCがあります。

2Dデジタルヒューマンの作成は、ディープラーニングに基づいています。イメージデザインを決めるだけでいいのです。グラフィックとオーディオのデータは収集され、前処理され、モデルトレーニングにアップロードされます。製造方法は3Dよりもシンプルで標準化されており、生産効率は常に向上しています。

この工場組立ライン方式により、デジタル・ピープルの生産基準、コスト、サイクルが大幅に短縮されました。

同時に、業界の生産側でのテクノロジーの反復とコストが急落するにつれて、小規模顧客向けのデジタルヒューマンソリューションも登場し始めました。

4月、Tencent Cloudはデジタルヒューマンプロダクションプラットフォームをリリースしました。実在の人物の画像を生成する必要があるデジタルエイリアンは、プラットフォームでサービスを購入できます。画像、音声、動画をアップロードするだけでカスタマイズでき、さまざまな音声と動画の長さに応じて請求されます。

デジタル人材を生み出すだけでなく、完全なデジタルライブストリーミングソリューションを提供することもできます。機能には、ユーザーのレビューにインテリジェントな応答を得るために、ライブオーディオで生放送ルームを引き継ぐことが含まれます。価格はたったの1,000元です。

ただし、一部のチャネルベンダーでは、AIアンカーのパッケージ販売価格が200元未満です。

これらのアンカーの画像のほとんどは、モデルエージェンシーによって承認されています。打ち上げの品質は荒いですが、明らかな切り欠きがあり、音は特徴的ではありません。

しかし、普通の中小企業の場合、商品を持ち込む大きなVがいなければ、ハイエンドIPのカスタマイズに何百万ドルも費やすことはできません。運営コストを削減して迅速に開始したいのであれば、数千元のデジタルパーソンで十分です。

企業が自分でコードを変更してさまざまなデジタル人材を育成したい場合は、テクノロジープロバイダーからソースコードを購入することもできます。価格はAIアンカーを直接購入するよりも高価です。自分で使用できるだけでなく、ソースコード開発エージェントを使用することもできます。これは、デジタルユーザー向けのライブストリーミングを自分で行うよりもさらに収益性が高くなります。

しかし、AIデジタルピープルの話はまだ語られていません。

02 人工知能を魂に注入します

IDCは、「中国のAIデジタルヒューマン市場の現状と機会の分析」レポートで、デジタル人材を5つのレベルに分けました。現在、デジタル人材の開発は、マニュアル制作からAIモデリングの段階を経ています。彼らは最初は人間のように見えますが、単純でインタラクティブな意思決定しかできません。

知能のレベルがL4とL5レベルに達すると、AI主導のデジタル担当者がほとんどのシナリオの決定を引き継ぎ、アイアンマンのパーソナルAIマネージャー「ジャービス」と同様に、より多くのリアルタイムインタラクションをサポートできるようになります。

big

過去30年間のバーチャルデジタル人材の発展、技術開発、市場需要は、基本的に2点前後で進化してきました。一つは視覚効果、もう一つはインタラクティブな体験です。

バーチャルデジタルの人々は、ゲーム、アニメ、映画に初めて登場しました。トレンディなものとの感情的なつながりは、IP価値の延長に響き渡ります。

初期のキャラクターIPは手塗りで、動きは1つずつ描かなければなりませんでした。1982年、日本のアニメ「スーパータイムフォートレス」の主演女優である林明美は、バーチャルシンガーとして初めてミュージックアルバムをリリースしました。

映画では、画像をコンピューターでモデル化できますが、動きはやはり人が行う必要があります。CG技術やモーションキャプチャなどの技術が徐々に普及してきています。グリーンスクリーンとキャプチャ機器に頼って、俳優はどんなキャラクターにもなれます。

2002年の「ロード・オブ・ザ・リング」から昨年の「アバター2」まで、ミレニアムを過ぎると、キャラクターのレンダリング効果は細部まで細かく調整され、芸術的創造に非常に便利になりました。

現時点では、デジタルヒューマンテクノロジーの開発は、より「人間的」になるための限界に段階的に近づくことを中心に展開しています。見た目や服装の視覚効果が現実に近いだけでなく、ドライビング(リアルで詳細な表情や動きを見せる)とレンダリング(画像をより詳細でリアルタイムにする)も必要です。

しかし、私はいつも何かが足りないと感じています。

1970年、日本のロボット工学の専門家である森正博は「恐怖の谷」理論を提案しました。ロボットは見た目も動きも人間に似ているので、人間はロボットに対して前向きな気持ちになります。

ロボットが人間とある程度の類似性に達すると、わずかな違いが拡大し、否定的で反感情的な感情につながります。そして、ロボットと人間の類似点が高まり続けると、ロボットに対する人間の感情はポジティブに戻ります。

big

映画とは異なり、社会的特性が強いアプリケーションシナリオでは、デジタルユーザー同士のよりリアルタイムの交流が必要です。彼らは見栄えの良い「花瓶」を作るだけで満足するわけではありません。

インタラクションに関して言えば、自然言語モデルがこのギャップを埋めます。

テキストを生成する能力はすでに皆のGPTを驚かせ、デジタルな人々の「IQ」に2つのバーを追加しています。

ビッグNLPモデルは、AIが仮想人間を動かすための技術的な基礎です。簡単に言えば、バーチャルなデジタルユーザーが話したり、標準化されたコンテンツ制作のコストを削減したり、インテリジェントなカスタマーサービス、ホスト、ガイドなどの役割を果たすためのトレーニングを受けたりすることができます。長期的には、感情をパーソナライズして理解する能力が向上すれば、高齢者に付き添いのケアを提供したり、子供の「家庭教師」になることも実現します。

さらに、AIが口の動きを駆動して、テキストとのマッピング関係を確立することもできます。リアリズムのレベルが上がるにつれて、微細な表現はより豊かになり、話すときに顔の表情と唇が一致するようになります。このようなデジタルの人々は「人に似ている」だけでなく、「人に似ている」のです。

MidJourneyは、拡散モデルの拡散モデルをベースにした人気商品です。テキスト入力命令によるAI描画をトレーニングするために昨年7月にリリースされました。

一部の機関では、年間収益が現在1億米ドルに達すると推定しています。

あるBステーションのアップアップが、ミッドジャーニーを使っておばあちゃんのリアルなイメージを復元しました。外観から判断すると、老化した肌のラインや白髪は細部にまでこだわっていました。過去のおばあちゃんの声を音声で再現することに加えて、祖母のデジタル分身はD-IDによって作成されました。

祖母にさよならを言わなかったという小さな後悔を補うために、孫と目の前にいるデジタル「おばあちゃん」が会話を始め、「おばあちゃん」は親切に応えてくれました。実際、それはChatGPTが提供した回答資料でした。

ユーザー側でのこうした実験を重ねることによって、AIの「パーソナライズ」に大量のトレーニング資料が継続的に追加され、AIモデルデータの充実が加速され、最終的にはAIがデジタルの人々に魂を注入できるようになり、より大きな可能性がもたらされます。

03 エピローグ

バーチャルアバターの探求は30年以上続いています。手描きからライブ演出、AI主導まで、現実的でインタラクティブな体験の進歩により、さまざまな応用シナリオが開かれ、海に流れ込みます。

AIGCは、一般の人々の外見や音の特徴を完全にデジタル化するのに役立ち、生産基準が低いため、市場が想像する余地が広がります。

IDCは、中国のAIデジタルヒューマン市場の規模は2026年までに102.4億元に達すると予測していますが、それがもたらすエクスペリエンスの良さによって、デジタル人材の究極の運命が決まります。

同時に、AIデジタルヒューマンは次世代の人間とコンピューターの相互作用に入る可能性を秘めています。将来、私たちはもはやコールドスクリーンではなく、私たちの最も深い感情的ニーズに応え、私たちの生活の一部となることができる、生き生きとしたアクティブなデジタルヒューマンに直面するかもしれません。

おそらく、AIのゴッドファーザーが言ったように、人間はデジタルインテリジェンスを生み出すための知能の進化の移行段階にすぎません。今、私たちはついに人間のように見え、私たちと同じように話し、将来的には私たちのように考えることができるかもしれないデジタルクローンができました。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする