物理AIはロボットに対してより強力な環境認識、理解、そしてインタラクション能力を与えます。黄仁勲はCES大会で、物理AIが50兆ドルの製造業と物流業を根本的に変えると述べ、「ロボット分野の‘ChatGPTの瞬間’が近づいている」と発言しました。
著者:張雅琦
出典:硬AI
ロボットは「ChatGPTの瞬間」を迎えようとしている?エヌビディアはCES 2025でCosmos世界基盤モデルプラットフォームを発表し、「物理AI」革命を引き起こす可能性があります。
このプラットフォームは「物理AI」の発展を加速させるための重要なステップと呼ばれ、自動運転車とロボットの分野をより高いレベルに進めることを目指しています。
物理AIはロボットに対してより強力な環境認識、理解、そしてインタラクション能力を与えます。物理AIの進展は、自動運転やロボットなど物理的なシーンの要求が高い産業の発展を大きく推進します。黄仁勲はCES大会で、物理AIが50兆ドルの製造業と物流業を根本的に変えると述べました。車からトラック、工場、倉庫まで、すべての動く物体がロボット化され、AIによって動かされることになります。
エヌビディアの公式ウェブサイトによると、物理AI体系はOmniverse、Cosmos、Isaac Simなどの主要構成要素を含んでいます。その中でCosmosプラットフォームは、2000万時間以上の動画トレーニングデータを利用し、「物理世界を理解するAIを教える」ことを目的としています。
物理AIとは何ですか。
物理AI、生成式物理AIとも呼ばれるこの技術は、自律機械(ロボット、自動運転車など)が真の物理世界で感知し、理解し、複雑な操作を実行できるようにするものです。
これは、従来の生成式AIを拡張し、3D世界の空間関係と物理的な行動を理解できるようにします。一般的に言えば、人工知能がフィードバックする内容は物理法則に従う必要があります。
例えば、テキストから画像や動画を生成するモデルは、物理を考慮しない場合、生成された内容は重力や光学などの詳細を欠くことになりますが、物理的知識を追加すると、生成される内容はよりリアルになります。
黄仁勲は今年の早い段階で、「AIの新しい波は物理AIである」と強調しました。
物理AIはロボットに対して、より強力な環境認識、理解、対話能力を与えます。従来のロボットは予め設定されたプログラムに従ってタスクを実行するだけですが、物理AIを搭載したロボットは、周囲の環境をより良く理解し、物理法則に基づいて適切に反応することができます。それにより、物体の認識、運動軌跡の予測、複雑な環境でのナビゲーションや操作が向上します。
「物理AIは50兆ドルの製造業と物流業を根本的に変えるだろう」と黄仁勲は今回のCES国際コンシューマエレクトロニクス展で述べました。
「車、トラックから工場、倉庫に至るまで、すべての動く物体がロボット化され、AIによって駆動されるようになるでしょう。エヌビディアのOmniverseデジタルツインオペレーティングシステムとCosmos物理AIは、グローバルな実体産業のデジタル化を推進する基盤です。」
エヌビディアは完全な物理AIエコシステムを構築しました。エヌビディア公式ウェブサイトによると、物理AIシステムはOmniverse、Cosmos、Isaac Simなどの重要な構成要素から成り立っています。
Omniverse:3Dコンテンツの作成と物理シミュレーションを加速する
Omniverseは、3D世界を構築し接続するためのオープンプラットフォームです。開発者が高忠実度で物理ベースの仮想環境を簡単に作成し、AIモデルのトレーニングとテストを行うためのツール、API、SDKの一連を提供します。
Omniverseの核は、一般的なシーン記述(OpenUSD)であり、異なる3Dツール間のデータ相互運用性を可能にします。Omniverseは今回のリリースでさらに拡張され、NVIDIA Edify SimReady生成的AIモデルを通じて、既存の3D資産に物理効果やマテリアルなどの属性を自動的に追加できるようになり、3Dコンテンツの作成と準備プロセスを大幅に加速します。
申万宏源は、エヌビディアの将来のビジョンにおいて、ロボット技術の発展が3台のコアコンピュータに依存していると述べています。
1台はAIをトレーニングするため、1台は物理シミュレーション環境内でAIをテストするため、そして1台はロボットやスマートカー内部にインストールされたシミュレーション環境コンピュータであり、物理AIアルゴリズムをサポートします。
現在の適用シーンの1つは、シミュレーション環境内でプログラム論理の信頼性を検証することです。第二のシーンは、リアルワールドから得るのが難しいデータを取得してAIモデルを継続的にトレーニングすることです。現在、多くの大手企業がこの方法を採用しており、ソフトウェアの観点からシミュレーション分野の強みを持つAnsysのシミュレーション製品もエヌビディアのOmniverseを通じてアクセスできます。Ansysは、カメラ、LIDAR、レーダーセンサー向けの物理ソルバーを活用して、NVIDIA DRIVEの高忠実度で拡張性のある3D環境を強化し、自動運転システムの開発にとって重要です。
この方法により、将来の運転過程におけるすべてのデータがリアルタイムでフィードバックされ、意思決定に利用され、さらにはより多くの類似データを生成してさまざまなシーンをシミュレーションし、トレーニング効果を加速させ、データ取得のボトルネックを突破します。
申万宏源は、エヌビディアのOmniverseへの多大な投資は、将来の算力の方向性が大モデルAI生成、ロボット、スマートドライビングの分野に集中していることを示唆していると考えています。
Cosmos WFMs:AIが物理世界を理解するための重要なステップ
物理AIの開発は非常に複雑で、大量の実世界データと長期間のテストが必要で、開発コストも高いです。
エヌビディアのCosmosプラットフォームは、この課題を解決するために、生成的世界基礎モデルを通じて物理シミュレーションデータ生成能力を提供しています。Cosmos WFMsは、開発者が実際の物理法則に基づいた高忠実度データを迅速に生成できるようにし、高価な現実データに依存する必要性を減少させます。
黄仁勲は基調講演で、Cosmosプラットフォームが2000万時間以上の動画トレーニングデータを利用して、「AIに物理世界を理解させることを目指している」と指摘しました。
これらのモデルは、テキスト、画像、動画、及びロボットセンサーデータを組み合わせて、雪道運転や混雑した倉庫などの多様な物理環境シーンを生成し、自動運転やロボット開発に重要なサポートを提供します。
Cosmosは、エヌビディアのNeMo CuratorフレームワークとCUDAによるデータ処理パイプラインを使用して、2000万時間の動画処理を14日以内で完了し、従来のCPU環境でこのタスクを行うには3.4年かかるところを短縮しました。
Cosmos Tokenizerは最先端の視覚マーカーとして、画像と動画を効率的な視覚マーカーに変換し、処理速度を12倍、圧縮効率を8倍向上させます。
黄仁勋は「ロボット分野の‘ChatGPTの瞬間’が間もなく到来する」と述べました。大規模言語モデル(LLMs)が自然言語処理を推進するのと同様に、Cosmos WFMsはロボットと自動運転の発展における基盤ツールと見なされています。
「私たちは、物理的AIを民主化し、すべての開発者が汎用ロボット技術にアクセスできるようにするためにCosmosを創造しました。」
Cosmosの発表は、エヌビディアの物理的AIシステムにおける「世界を理解する」という重要な要素を補完しました。
多くの業界の巨人たちがCosmosを受け入れています。
1X、Agile Robots、Waabi、Uberなど、多くのリーディング企業がCosmosの初期ユーザーとなっています。これらの企業は、Cosmosプラットフォームを活用してロボットと自動運転技術の進歩を推進しています。
Uberの例を挙げると、豊富な運転データをCosmosプラットフォームとNVIDIA DGX Cloudの機能と統合することで、Uberはエヌビディアと協力して安全でスケーラブルな自動運転ソリューションの開発を加速しています。
UberのCEOダラ・コスロシャヒは次のように述べました:
「生成型人工知能は未来の移動を推進しますが、それには豊富なデータと非常に強力な計算能力が必要です。エヌビディアとの協力を通じて、安全でスケーラブルな自動運転ソリューションの開発を加速できると信じています。」
Agilityの最高技術責任者プラス・ヴェラガプディは声明の中で次のように述べました:
「データの不足と変動性は、ロボット環境での成功に向けた学習の重要な課題です。Cosmosのテキスト、画像、ビデオから世界機能を使えば、さまざまなタスクにおいてリアルなシーンを生成および強化でき、これらのシーンを利用してモデルをトレーニングすることができます。大量の高価なリアルワールドデータを捕集せずに。」
現在、Cosmos WFMsはエヌビディアのNGCとHugging Faceプラットフォームを通じてダウンロード可能であり、開発者はこれらのモデルとその微調整フレームワークを使用できます。さらに、CosmosはエヌビディアのDGX Cloudを通じて迅速なデプロイを実現し、企業ユーザーに包括的なサポートを提供します。