理想車の理解には、多くの誤解があるようです。
多くの新興自動車ブランドの中で、理想自動車はしばしば「技術がない」と批判され、時にはその製品が「産業廃棄物」と軽蔑されることさえあります。特にスマートコクピットに関して、外部の印象は冷蔵庫、カラーテレビ、大型ソファなどの要素に限られているようです。
この誤解はその理由があるようです。理想車の創設者である李想は、車の分野で最も優れた製品マネージャーと考えられ、この独自市場向けにより良い車の体験を提供するために、多子家庭のニーズを敏感に見抜きました。
この過程で、理想車のマーケティング戦略は長い間、技術的詳細を裏方に置き、製品の使用体験を重視し、広い空間、快適な配置、エンターテイメント機能などを展示し、自主開発技術についてはほとんど言及しないようにしてきました。これらが無意識のうちに理想車に対する外界の認識の偏りを生み出しています。
理想車は冷蔵庫、カラーテレビ、大型ソファなどの設備を最初に提供しましたが、理想車は、本当にスマートコクピットの体験を向上させられるのは、彼ら自身が開発した大型モデルであるMind GPTであると信じています。理想車は2023年第1四半期にこのプロジェクトを開始し、世界初の自社開発大型モデル搭載車企業となりました。
広州モーターショーが始まる前、北京望京の理想車オフィスで、GeekParkが理想車のAIチーフサイエンティスト兼スマートコクピットAI責任者である陳偉氏を取材しました。彼は大型モデルが自動車でどのように使用されるかや、人間とのインタラクションアシスタントである理想同学の将来展望について共有しました。
理想車は現在、新エネルギー自動車企業の中でリードしていますが、その戦略目標はそれだけではありません。陳偉氏は、理想が単なる自動車企業でなく、人工知能企業であると述べ、intellingent車は物理世界とデジタル世界を結びつけ、理想同学を将来のintellingent体に育てたいと述べました。
理想は、全球トップの人工知能企業になるという偉大な目標を設定しています。彼らのintellingent電動車は、最初の人工知能ロボットだけでなく、物理世界のAIエコシステムを構築するでしょう。今や、理想車は着実にこの目標に向かって進んでいます。
理想は単なる自動車企業だけでなく、人工知能企業でもあります。
Q:理想のスマートコックピットの発展過程について外部からの理解は十分ではありませんが、まずは紹介していただけますか?
陳偉: 理想のスマートコックピットのAIインタラクション技術は三つの世代を経験しました。最初は、私たちはサプライヤーの技術に主に依存していましたが、3年前から自主研究を開始し、視聴覚融合に基づくマルチモーダルインタラクション技術を段階的に構築し、音声インタラクションから知的認知までのフルスタッククローズドループを実現しました。2023年初めには、大規模モデルの研究開発を開始し、年末には車載システムに適用しました。
大規模モデルが登場する前、音声インタラクションは主に命令型またはタスク指向で、業界の競争は主に音声認識の速度、実行の正確性、および応答効率に集中していました。しかし、家庭ユーザーエクスペリエンスの向上は常に私たちの目標でした。私たちは「家族全員」のカーシーンに焦点を当て、「3次元空間インタラクション」のスマートコックピットを構築しました。このコックピットは生活と仕事の外の「第三の場所」であり、高性能な計算プラットフォームであり、豊富なセンサーと強力なローカルコンピューティング能力を搭載し、イノベーティブな機能の基盤を築きました。
例えば、「音のないゾーン」技術を実現し、特定の領域に限定されることなく、空間座標に基づいて音源を位置付け、追跡しています。また、「方言フリートーク」機能を開発し、現在、9種類の方言をサポートしており、異なるユーザーグループの使用を容易にしています。また、触れずに操作できるタッチとジェスチャー認識を追加し、音声コマンドと組み合わせて、ユーザーのインタラクションコストをさらに低減しています。
理想クラスメイトの技術を開発する際、私たちは常に人間と機械のインタラクションをより自然で効率的にし、ユーザーに強力で予想を超える知能体験を提供することに尽力しています。
Q:理想の自社開発大規模モデルの研究開発において主に考慮された要素は何ですか?
陳偉: 大規模モデルを開発する前、車内アプリケーションのシナリオは主に車両制御、メディア、ナビゲーションなどのタスク指向の対話に集中しており、感知技術は成熟しつつありましたが、認知能力はまだ不十分であり、特に複雑なタスク理解、知識質問、オープンな対話において制限があり、理想クラスメイトの製品力を制約していました。
2022年から、プレトレーニング言語モデル技術を推進し、理想の生徒の自然言語理解能力を徐々に向上させることを開始しました。そして、2023年初めに、ChatGPTのリリースと共に、大規模モデルが認知能力の突破口であることをより確信し、理想の生徒の体験を飛躍的に向上させるために、Mind GPTのフルスタック開発を開始することに決定しました。
当時、オープンソースのエコシステムが始まったばかりで、業界全体が大規模モデルについて理解が曖昧でした。進展を加速するために、大規模モデルの「無人地帯」技術を探求するために多くのリソースを投入しました。初期の開発段階では、車内での高頻度使用シーンに特化し、大規模モデル時代に理想の生徒が新しい役割を果たすように、車のアシスト、エンターテイメントアシスト、移動アシスト、そして百科教師を展開し、大規模モデルが優れたパフォーマンスを発揮し、無感知して能力を向上させるのと同時に、既存のタスク指向型対話とシームレスに統合されるよう努め、理想の生徒の知能レベルを向上させました。
Q:大規模モデルと従来の対話システムの融合において、どのような課題に直面しましたか?
Mind GPTの開発中、我々は大規模モデルとタスク指向対話システムの融合問題を解決するために多くのエネルギーを投入しました。多くの自動車メーカーの大規模モデルシステムは特定のコマンドがないと起動できないため、既存の機能が機能しなくなるという問題が生じました。しかし、我々の目標は、理想の生徒が知能を向上させる中で、ユーザーが慣れ親しんだインタラクション体験を保ち、機能の進歩を自然に感じることができるようにすることでした。
さらに、大規模モデルの会話能力が向上すると、理想の生徒はユーザーの会話を妨げる可能性があります。そのため、我々はマルチモーダルなユーザー意図判定アルゴリズムを設計し、理想の生徒が自分と対話しているかどうかを正確に判断し、ユーザーの体験を妨げることなく“いつでもお呼びください”を実現しました。
大規模モデルは情報の正確性とタイムリネスにおいて「幻覚」の問題を抱えています。そのため、我々はMind GPTを設計し、知識ベースとインターネットを繋ぐ能力を持たせ、ユーザーが正確かつタイムリーな情報を入手できるようにしています。これは、モデル体験の最適化を目指す中で、我々が重点的に突破し続けている方向です。ユーザーのシナリオを積極的に探求することにより、我々は大規模モデルの開発過程でその応用の深さと幅を拡大し続けています。
Q:1.0から3.0までのMind GPTの進化において、どのような重要な技術的突破がありましたか?
陳偉:Mind GPTの進化は三つの重要な段階を経ています:
1.0 大言語モデル:大言語モデルの能力を重視し、モデルの効果と推論効率の最適解を見つけ、理想的な学習者の認知能力の飛躍を実現する。この段階では、言語理解、生成、知識質問応答などの能力が重要です。
2.0 言語インテリジェントエージェント:大言語モデルの応用能力に焦点を当て、Mind GPTを中心としたインテリジェントエージェント技術とエンジニアリングシステムを構築することが核心である。理想の生徒は、頭脳だけでなく、計画、記憶、ツール、行動の能力が十分に優れている必要があります。自律性を備え、より多くの複雑な問題を解決することができます。
3.0 マルチモーダルインテリジェントエージェント:マルチモーダルなインテリジェントエージェント能力の構築に焦点を当て、知覚と認知を融合したエンドツーエンドモデルの能力を構築することが核心である。人間と機械のインタラクションの知覚と認知統合システムをエンドツーエンドモデルにアップグレードし、相互遅延を大幅に低減しながら、マルチモーダルデータの統合トレーニングによりモデルの学習品質と効率をさらに向上させ、モデルの能力向上を実現します。
Q:最近、理想自動車は人工知能に関する三つのトップ会議論文を連続して発表しました。これらの論文の内容を簡単に紹介していただけますか?
陳偉:これらの三つの論文は、大規模モデルの認識能力向上、人間-物体インタラクション(HOI)検出のロングテール問題の解決、大規模モデルの“錯覚”問題への対処に焦点を当てており、理想自動車のマルチモーダルエンドツーエンドインテリジェントエージェント構築に重要な技術支援を提供しています。
第一論文(文末の参考文献部に詳細な紹介があります)は、マルチモーダル情報を大言語モデル(LLM)と効果的に融合する方法について探究しています。現在のほとんどのマルチモーダルモデルは、異なるモードのコンテンツを言語モデルの意味空間に整列させ、その強力な能力を活用しています。しかし、従来のモードコネクタは、特定のタスクに必要なモード情報を抽出することができないことが多いです。そのため、この論文では、Q-MoE(効率的混合専門モードコネクタ)が提案され、テキスト情報の監督を導入することで、よりターゲットにされたマルチモーダル情報抽出を実現しています。Q-MoEは革新的なモデル構造と混合専門家ルーティング戦略を採用し、既存のコネクタよりも優れたパフォーマンスを示しています。
第二論文では、知識グラフ(KG)を大言語モデルに統合するKG-アダプターが提案され、モデルの“錯覚”問題に対処しています。大規模モデルは多くのタスクで優れた性能を発揮していますが、しばしば正確な専門知識や最新情報が欠けています。KG-アダプターは、効率的微調整(PEFT)手法に基づいて、知識グラフの構造情報を言語モデルに直接統合し、エンドツーエンドの知識推論を実現しています。実験の結果、パラメータをわずかにトレーニングしても、KG-アダプターは以前のモデルを凌駕し、知識の正確性を著しく向上させました。
第三論文では、HOI検出のロングテール問題に対処するために、“双先行強化デコードネットワーク”手法が提案されています。この双先行デコーダネットワークは、マルチモーダルな大規模モデルのインタラクティブ理解能力と検出モデルのローカル特徴位置能力を組み合わせ、長尾カテゴリでのモデルの識別精度を大幅に向上させ、パフォーマンスを6%以上向上させました。
Q: なぜ理想は大規模モデルの自社開発に多大な力を費やすのですか?実際、多くの自動車企業は既存の大規模モデル製品を活用していますか?
陈伟: 戦略的には、理想社の目標はグローバルリーディングの人工知能企業になることであり、大規模モデル技術はAIの中核能力であり、知能製品体験の重要な要素です。自社開発の大規模モデルは、技術革新とユーザー体験においてより積極性と優位性を持ちます。
製品の観点から、理想の同僚はユーザーの期待を超え、革新的で効率的な知能体験を提供することを目指しています。2022年以降、大規模モデルと知能体技術は急速に発展していますが、技術的な課題と不確実性に満ちています。これらの最先端領域で製品力を持続的に向上させるには、技術障壁を突破し、迅速なイテレーション能力を維持する必要があります。
理想社は戦略的に自社開発の大規模モデルを選択し、独自制御可能なフルリンク技術体系を構築し、より効率的で深い研究開発の協力を促進し、体験の革新を推進しています。自社の大規模モデル「Mind GPT」を通じて、ユーザー体験を中心に、迅速なイテレーションを実現し、理想の同僚が知能体験においてリードし続けることを確保しています。
Q: 現在、理想の自社開発大規模モデルの規模はどの程度ですか?
陈伟: 現在のMind GPTは主にUltra、Pro、Nanoの3つのレベルに分かれており、Ultraは千億レベル、Proは百億レベル、Nanoは十億レベルで、端から雲、単純から複雑な大規模モデルニーズをカバーしています
Q: 現在、大規模モデルのイテレーション速度は非常に速いですが、理想の自社開発大規模モデルはその速度に追いつくためにどのようにしていますか?
陈伟: 現在の大規模モデル技術のイテレーションは非常に速いですが、私たちは継続的に最新の技術を追いかけ、Mind GPTの研究開発に迅速に適用しています。同時に、ビジネスシーンに合わせて、独自の開発リズムと主流を持っています。モデルのレベルでは、Mind GPT 2.0以降、MOEアーキテクチャに切り替えており、このアーキテクチャでモデル構造の革新と改善を行っており、大規模モデルの能力はマルチモード、ナレッジエンハンス、論理推論に重点を置いています。最近の論文では、これらの分野での研究進展を紹介しています。
その他、私たちは理想的な生徒のスマート化レベル向上について、大規模なモデル能力を突破するだけでなく、スマートボディの計画、記憶、ツール、アクションなどの技術の包括的なアップグレードが必要で、より自律性の高い組み合わせスマートを構築することができます。この方向は、重点的に研究しており、研究の進展は、製品や論文を通じて段階的に公開される予定です。
車の最終形態はスマートボディです
Q:理想的な生徒の最終目標は何ですか?
陳偉:私たちは理想的な生徒の進化が3つの段階に分かれると考えており、人間の能力を強化し、ユーザーの助手に変わり、ユーザーの家族となります。ユーザーの家族となることが、理想的な生徒の最終目標であり、研究開発の観点では、理想的な生徒の多様なモードスマートボディの包括的な突破を実現するために、OpenAIのスマート分類基準を参考にして、L1のchatbotからL2 Reasoner、さらにはL3 Agentまでの技術進化が必要です。
Q:理想的な生徒の3つの発展段階を具体的に理解するにはどうすればよいですか?
陳偉:これら3つの段階は、ユーザーの要求を満たし、超え続けるという私たちのビジョンを表現しています。
第一段階:ユーザーの能力を強化する。初期段階では、理想的な生徒がユーザーが車をより簡単に使えるようにサポートすることを期待しています。ビジョンや音声などの多モード感知能力を通じて、自然で効率的な人間と機械のインタラクションを実現します。例えば、ユーザーは方言や簡単な指示を自由に使用でき、理想的な生徒は大型モデルMind GPTを使用して、車の操作、ナビゲーションなどのタスクを理解し実行し、音声コマンドの実行精度を向上させます。たとえば、ユーザーが「私が車に乗ってエアコンをつけて音楽をかけて、降りたらすべてオフにして」と言うと、理想的な生徒は文脈に基づいて自動的にタスクを分解し、乗車後にエアコンと音楽を自動起動し、降車後に自動でオフにします。このような簡単な機能により、車の利用体験がより快適で効率的になります。
第二段階:ユーザーの助手として。Mind GPTのサポートを受けて、理想的な生徒はユーザーの万能アシスタントに進化します - 車のアシスタント、旅行のアシスタント、エンターテイメントのアシスタント、そして知識の教師に。車のアシスタントとしては、車の操作、状態のクエリ、故障のトラブルシューティングなどの質問に答えることができます。旅行アシスタントは家族旅行の計画、飲食やエンターテイメントの推薦、途中の文化の説明が可能です。エンターテイメントアシスタントは、時事トピックや有名人の最新情報をインターネットで検索し、家族の好みの音楽や映画を再生できます。さらに、知識の教師は、子供向けの多くの疑問に答えると同時に、成人向けのテクノロジーのニュースなど、幅広い知識をカバーし、着実に成長する知識ストックをもとに家族に包括的なサービスを提供します。
第三段階:ユーザーの家族としての成長 理想的な同僚の問題解決能力が向上し、ユーザーとの信頼関係が徐々に深まるにつれて、感情的なつながりをさらに築き、最終的には家庭のデジタルメンバーとして成長することを期待しています。このプロセスでは、信頼から感情、そしてアイデンティティの確立までの長期的な構築が必要です。例えば、音声認識を通じて、理想的な同僚はすでに家族の各メンバーを認識できるようになっています。Mind GPTのメモリ機能のアップグレードに伴い、理想的な同僚のパーソナライズされたサービス能力を強化しています。24年にわたる複数回のOTAアップデートを重ねる中で、理想的な同僚は、家族のそれぞれを理解し、自発的にパーソナライズされたお薦めを提供する能力が向上しています。これが私たちが着実に発展させている方向であり、理想的な同僚がより多くの家族に認められ、愛されることを望んでいます。
Q:現在の業界全体、大型モデルを実際にスマートコックピットに落とし込む進展状況はどうですか?
陳偉:2023年に当社のMind GPTが業界初公開された後、2024年には、多くの企業が大型モデルを導入した音声アシスタントを次々と投入し、業界のスマートコックピットの知能化レベルが急速に向上しており、大型モデルが重要なセールスポイントとなっています。私たちにとって唯一気にしているのは、Mind GPTに基づく理想的な同僚が本当にユーザーの問題を解決しているか、ユーザーのニーズを常に超えているか、技術と体験の面で業界をリードしているか、自分たちで重要なことをやっているかです。
Q:各自の自動車メーカーは大型モデルを急速に導入していますが、理想的な差別化をどのように構築するのですか?
陳偉:私たちの差別化は技術革新に焦点を当てており、これが直接製品の先導につながります。私の差別化の理解は、次の2つのレベルに分かれます:
第一レベルでは、業界内の同様の機能において、私たちの技術とエクスペリエンスは著しく優れている必要があります。現在、大型モデルの適用はAIアシスタントを単一の領域から複数の領域に拡大しましたが、私たちの目標は技術革新を通じて、体験を「使用可能」から「使いやすい」へと向上させることです。
例えば、Mind GPTを導入する前、多くの企業が単純に大型モデルを既存のタスク指向対話システムに組み込んで迅速に展開することを選択しましたが、この方法は使用時に切れ目を感じさせます。ユーザーが感じるべきは、AIアシスタントがより賢くなったことであり、切り替えが必要ないことです。そのため、私たちは、より困難でも正しい道を選択しました―大型モデルを対話システムに統合し、"理想的な同僚"を一度にアップグレードし、よりスマートにしました。操作の必要がない状況で、スキルが数十から数千に急速に増加しました。
第二レベルでは、先端技術に迅速に追随し、製品に転化することが重要です。大型モデルはまだ急速に発展しています。昨年、大型モデルが公開された後、"スマートボディ"が重要な技術であると判断し、当社は関連する研究開発を積極的に進めています。
Mind GPT 2.0の登場に伴い、理想同学は大規模モデルおよびエージェントの両面でアップグレードされ、Benchmarkテストでの理解、生成、知識問答などの能力が50%以上向上しました。推論コストは増加していません。同時に、エージェントの計画、記憶、ツールの使用、行動における段階的な成果が迅速に理想同学の機能に転化され、より強力な複雑な問題の計画と外部ツール接続能力がもたらされ、多ラウンドの対話の成功率が著しく向上しました。
AI時代、言語チームの変化が最も大きい
Q:大規模モデルとエンドツーエンド技術の登場は、組織構造にどのような影響を与えますか?
陳偉:大規模モデル時代の到来は、研究開発モードを再構築し、組織構造の大きな変化をもたらしています。
小規模モデル時代には、研究開発組織は通常、音声、言語、視覚などの専門技術分野に基づいて設計されました。異なる技術分野のモデル選択は異なり、研究開発計画は多くの小さなモデルとビジネスロジックの組み合わせでレベルシステムを構成し、各技術分野の間にはかなりの差異がありました。そのため、各技術分野は独立して研究開発、評価、展開を行っていました。
大規模モデル時代には、複数の研究開発チームが共同してMind GPTなどの単一の大規模モデルの開発と提供を支援する必要があります。 研究開発計画はレベルシステムからエンドツーエンドのシステムに進化し、研究開発チームは技術方向ではなく、大規模モデルの開発段階に基づいてグループ化されます。これにはMind GPTの大規模モデルの事前トレーニング、後トレーニング、エージェント技術、評価、エンドアラインメントなどの方向が含まれ、研究開発組織構造を再設計します。
Q:車内での理想同学の重要性はますます高まるのでしょうか?
陳偉:はい、車内での理想同学の重要性はますます高まり、大規模モデル時代のインテリジェントキャビンの人間と機械の対話形態はタッチスクリーンから対話型へと移行し、理想同学は人間と機械のインタラクションの主要なエントリーポイントとなります。既存の車載アプリケーションは原子化し、プラットフォーム化され、理想同学がより強力なクロスアプリケーション、高い統合度の能力を備えることをサポートします。
Q: マルチモーダルスマートエージェントは現在どの段階に達していますか?将来、どんな課題がありますか?
陳偉: 私たちのマルチモーダルスマートエージェントは、Mind GPT 2.0言語スマートエージェントからMind GPT 3.0マルチモーダルスマートエージェントに進化しています。現在業界の研究開発の重点は、マルチモーダルエンドツーエンドの大規模モデルを中心にしており、マルチモーダルスマートエージェントの研究はまだ比較的初期段階にあります。
私はマルチモーダルスマートエージェントのブレイクスルーは3つのことにかかっていると考えています:1. 大規模モデルの論理推論能力のブレイクスルー 2. マルチモーダル、特に音声、視覚、言語の整合 3. ツールクラスのエコシステムの構築。
Q: 最後の質問ですが、理想に対する外部の最大の誤解は何ですか?どのように対応しますか?
陳偉: 実際には誤解とまでは言えませんが、私たちは製品とユーザーとの直接対話を望んでいます。理想のキャビンAIや独自技術に関する外部への紹介が少ないため、理想同窓生の技術の進歩や現状について、皆さんが理解していない可能性があります。将来的には、業界やユーザーとのコミュニケーションを強化し、皆さんが理想同窓学生の技術力をより把握できるよう努めていきます。
技術開発の面では、常に「Mind GPT」の大規模モデルを中心に、マルチモーダルスマートエージェントのフルスタックの独自技術を構築することに取り組んでいます。規模化された革新とブレイクスルーを通じて、理想の同窓生がユーザーのサポートだけでなく、彼らの成長を支援する家族になることを目指しています。このようなサポートや成長は、私たちの研究開発チームの最大の成果であり誇りです。
参考文献:
1. 理想車Mind GPT論文「Q-MoE: Connector for MLLMs with Text-Driven Routing」が、マルチメディア分野の国際的トップ会議ACM MM 2024に収録されました。
2、研究論文『KG- Adapter:Enabling Knowledge Graph Integration in Large Language Models through Parameter-Efficient Fine-Tuning』がACL(計算言語学協会年次大会、Association for Computational Linguistics)2024に収録されました。
3、研究論文『Dual-prior Augmented Decoding Network for Long Tail Distribution in HOI Detection』がAAAI(人工知能促進協会、Association for the Advancement of Artificial Intelligence)に収録されました。