share_log

理想汽车7月内全量推送无图NOA 发布端到端+VLM全新自动驾驶技术架构

リーオートの新しい自動運転技術アーキテクチャに基づいて、全量プッシュ(7月中)NOAなしのビジュアルローカリゼーションマッピングによるエンドツーエンド展開

Gelonghui Finance ·  07/05 10:17

・全国で開放された画像のないNOAは、7月に理想AD Maxの全ユーザーにプッシュされます。

・全自動AESおよび全方位低速AEBは7月内にプッシュされます。

・エンド・トゥ・エンドモデル、VLMビジュアル言語モデル、およびワールドモデルに基づく全新しい自動運転技術アーキテクチャがリリースされました。

・エンドツーエンド+VLMのアーリーアクセスプログラムを開始しました。

2024年7月5日、リーオートは2024年の夏におけるスマートドライブ大会で、全数の理想的AD Maxユーザーに「全国で運転できる」画像のないNOAを7月にプッシュし、同時に全自動AES(自動緊急回避)および全方位低速AEB(自動緊急制動)を7月内にプッシュすることを発表しました。同時に、理想的なオートはエンドツーエンドモデル、VLMビジュアル言語モデル、およびワールドモデルに基づいた全新しい自動運転技術アーキテクチャをリリースし、新しいアーキテクチャの早期利用を開始しました。

スマートドライブ製品の場合、画像のないNOAは、高精度地図または事前情報に依存しなくても、ナビゲーションカバーエリア全体で使用でき、時空間連合プランニング機能を利用して、よりシームレスな迂回体験を提供できます。画像のないNOAには、超長距離ナビゲーションルート選択機能もあり、複雑なインターセクションでもスムーズに移動できます。同時に、画像のないNOAは、ユーザーの心理的安全境界を十分に考慮し、デシメート級の微操作による無意識の運転体験を提供します。さらに、即将推送的AES功能可以实现不依赖人辅助扭力的全自动触发,规避更多高危事故风险。全方位低速AEB则再次拓展主动安全风险场景,有效减少低速挪车场景的高频剐蹭事故发生。

自動運転技術の面では、新しいアーキテクチャは、エンドツーエンドモデル、VLMビジュアル言語モデル、およびワールドモデルで構成されています。エンドツーエンドモデルは、通常の運転行動を処理するために使用され、センサーの入力から走行軌道の出力まで1つのモデルのみを経由し、情報伝達、推論計算、およびモデルの反復がより効率的に行われ、運転行動がより人間に近くなります。VLMビジュアル言語モデルには、強力な論理思考能力があり、複雑な交通状況、ナビゲーションマップ、および交通規則を理解し、高難易度の未知のシナリオに対処できます。同時に、自動運転システムは、ワールドモデルに基づいて構築された仮想環境で能力の学習とテストを実行します。ワールドモデルは、再構築と生成の2つのパスを結合して、真のパターンに合わせて構築されたテストシナリオであり、優れた汎用性を持っています。

理想汽车の製品部のシニアバイスプレジデントである范皓宇氏は、「理想汽车は常にユーザーと共に製品体験を改善することに取り組んでおり、今年5月に最初の概念ユーザーの配信を開始し、6月には概念ユーザーの数を10000人以上に増やしました。我々はすでに全国各地で100万キロメートル以上の画像のないNOA体験を積んでいます。 全量プッシュ後、24万人以上の理想AD Maxオーナーが今国内で最も先進的なスマートドライブ製品を体験することができます。これは重要なアップグレードであり、誠実な姿勢を体現しています」と述べています。

理想汽车の自動運転R&D副社長である郎咸朋氏は、「2021年のフルスタック自社設計後、新しい自動運転技術アーキテクチャをリリースするまで、理想汽車の自動運転R&Dは常に探求をやめていません。エンドツーエンドモデルとVLMビジュアル言語モデルを組み合わせることにより、車両に二つのシステムを展開することができ、またVLMビジュアル言語モデルを初めて車載チップに展開することができました。この先進的な新しいアーキテクチャは、自動運転分野での画期的な技術的ブレークスルーです。」

画像のないNOAの4つの機能が向上し、全国の道路が効率的に通行可能に

大

7月にプッシュされる画像のないNOAは、4つの重要な機能をアップグレードし、ユーザーエクスペリエンスを大幅に向上させます。まず、認識、理解、および道路構造構築能力の向上により、画像のないNOAは先行情報に依存しなくても、ナビゲーションカバーエリア全体で使用でき、より特別な窄路や田舎道路でも機能を使用できます。

次に、高効率な時空間連合プランニング能力に基づいて、車両が障害物を回避し、駆け巡ることがさらにスムーズになりました。時間空間結合のプランニングにより、横、縦方向のスペースの同期的なプランニングが実現され、将来の時間窓内のすべての使用可能な走行軌跡が予測されます。良いサンプルに基づいて学習し、車両は最適な軌跡を素早く選択し、結審で安全な動作を実行することができます。

複雑な市街地の交差点では、画像のないNOAとルート選択能力が大幅に向上しています。画像のないNOAは、BEVビジュアルモデルとナビゲーションマッチングアルゴリズムを統合したものを使用して、変化する道路沿い、道路の矢印識別、および交差点機能をリアルタイムに認識し、レーン構造とナビゲーション特徴の統合を適切に行い、複雑な交差点の構造化に対処し、超長距離ナビゲーションルート選択機能を持ち、交差点を安定させます。

同時に、画像のないNOAは、ユーザーの心理的安全境界を重視し、デシメート級の微操作による無意識の運転を提供し、レーザーレーダーとビジュアルフュージョンネットワークを使用してより広範囲の不規則な障害物を認識し、感知精度も向上し、他の道路使用者の行動をより早く、正確に予測することができます。このため、車両は他の道路使用者と適切な距離を保ち、加速および減速の時期を適切に決定し、ユーザーの安全運転感を大幅に向上させることができます。

アクティブセーフティ能力が向上し、技術を拡張しました。

大

アクティブセーフティ分野では、理想車は完全な安全リスクシナリオライブラリを構築し、出現頻度と危険度に基づいて分類、リスクシナリオのカバレッジを持続的に向上しています。7月に全自動AESおよび全方位低速AEB機能をユーザーにプッシュする予定です。

理想自動車は、AEBでも回避できない物理的な限界状況に対応するため、全自動トリガーのAES自動緊急転向機能を導入しました。車両が高速で走行している場合、先進セーフティシステムに反応する時間が極端に短くなるため、AEBがトリガーされたとしても、車両全体に制動力をかけても停止することができない状況があります。この場合、AES機能がタイムリーにトリガーされ、人為的なハンドル操作が必要なく自動緊急転向が行われ、前方の目標回避に役立ち、極端な状況下での事故を効果的に回避することができます。

全方向低速AEBは、駐車や低速走行シーンに対して、全方向360度のアクティブセーフティプロテクションを提供します。複雑な地下駐車場の場合、周囲の柱、歩行者、その他の車両などの障害物が衝突の危険性を増加させます。全方向低速AEBは、前、後、側面の衝突危険性を効果的に識別し、必要に応じて緊急ブレーキをかけ、ユーザーの日々のドライブを安全にすることができます。

自動化技術が革新を遂げ、二重システムがよりスマートになりました。

大

理想自動車の自動運転新技術アーキテクチャは、Nobel Prizeの受賞者であるDaniel Kahnemanの『High-Low-System Theory』に着想を得ており、自動運転領域で人間の思考と決定プロセスを模倣し、よりスマートで人間らしい運転ソリューションを提供しています。

High SystemであるSystem 1は、シンプルなタスクを処理することが得意で、ドライブ車両における95%の場面に適応できる直感。Low SystemであるSystem 2は、より深い理解と学習を通じて形成された論理的な推論、複雑な分析、計算能力で、複雑であっても未知の交通シーンを解決するために使用され、日常ドライブの約5%を占める。 System 1とSystem 2が相互補完し、それぞれが高効率なほとんどのシーンと、高い上限値の少数のシーンを確実に確保し、人間の認知、世界の理解および意思決定の基礎を形成します。

理想自動車は、High-Low-System理論に基づいた自動運転アルゴリズムのアーキテクチャのプロトタイプを開発しました。 System 1では、エンドツーエンドで実装されたモデルが高効率かつ迅速に応答できる能力を持っています。エンドツーエンドモデルは、センサー入力を受け取り、車両の制御に使用される運行軌跡を直接出力します。 System 2は、VLMビジュアル言語モデルによって実施され、センサー入力を受け取り、ロジカルな推論を経て、システム1に決定情報を出力します。二重システムによる自動運転機能は、世界モデルを活用してクラウド上でトレーニングと検証も行います。

High efficiency from end-to-end models

大

エンドツーエンドモデルの入力は、主にカメラとLIDARから構成され、多数のセンサーフィーチャーは、CNNバックボーンネットワークの抽出および統合、BEVスペースへの投影を経て処理されます。理想自動車は、モデルの表現能力を向上させるために、時間および空間次元を持つメモリモジュールを設計しました。モデルの入力には、車両の状態情報やナビゲーション情報も加えられており、トランスフォーマーモデルによりエンコードされ、BEVフィーチャーと共同でデコードされ、動的な障害物、道路構造、および一般的な障害物が生成され、運転軌跡が計画されます。

多目的の出力が統合されたモデルで実行され、ルールが介入しない中間では、エンドツーエンドモデルは情報伝達、推論計算、モデルイテレーションにおいて明らかな優位性を持っています。実際のドライブでは、エンドツーエンドモデルは、一般的な障害物の理解力、超視程ナビゲーション能力、道路構造の理解力、およびより人間らしいPathPlanning能力を示しています。

VLMビジュアル言語モデルの高い上限性能

大

VLMビジュアル言語モデルのアルゴリズムアーキテクチャは、単一のTransformerモデルによって構成され、Prompt(プロンプト用語)テキストをTokenizer(トークン化子)エンコードし、前方カメラの映像とナビゲーションマップ情報を視覚情報エンコードします。それを再びグラフィカルなモードアライメントモジュールで行い、最終的に自己回帰推論を一元的に行います。環境の理解、ドライブの意思決定、およびドライブ軌跡を出力し、システム1に伝えて制御を支援します。

理想自動車のVLMビジュアル言語モデルのパラメータ数は22億であり、複雑な交通環境に強い理解力を持ち、初めて出会った未知の場面にも対応できます。VLMモデルは、路面の平坦性、光線などの環境情報を識別し、システム1に車速を制御するように促し、運転を安全かつ快適にします。VLMモデルは、より強力なナビゲーションマップ理解能力を有し、車載システムと協調してナビゲーションを修正し、運転の間に誤ったルートを防止することができます。同時に、VLMモデルは、バスレーン、タイドレーン、時間帯制限などの複雑な交通ルールを理解し、運転中に合理的な判断を下すことができます。

再構築された統合された世界モデル

大

理想自動車の世界モデルは、再構築と生成の2つの技術パスを組み合わせ、真のデータを3DGS(3D Gaussian Spray)技術で再構築し、生成モデルで新しい視点を補充します。シーンの再構成中、静的要素と動的物体が分離され、静的環境が再構築され、動的物体が再構築され、新しい視点が生成されます。その後、シーンを再レンダリングして、3Dの物理世界を形成します。その中の動的アセットは任意に編集および調整することができ、シーンの一部分を汎化することができます。再構築と生成モデルの両方を組み合わせた場合、自動運転システムの能力の学習とテストに優れた仮想環境が作成され、システムに高効率のクローズドループイテレーション能力が提供され、システムの安全性と信頼性を確保します。

重建と生成の両者を組み合わせたシーンは、自動運転システムの能力の学習とテストに優れた仮想環境が作成され、システムに高効率のクローズドループイテレーション能力が提供され、システムの安全性と信頼性を確保します。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする