エヌビディアは「物理AI」の大時代を切り開き、Siasun Robot&Automationの「ChatGPT時刻」に直結しています。

wallstreetcn · 01/07 20:52

物理AI赋予机器人更强的环境感知、理解和交互能力。黄仁勋在CES大会上表示，物理AI将彻底改变价值50万亿美元的制造业和物流业，“机器人领域的‘ChatGPT时刻’即将到来。”

作者：张雅琦

来源：硬AI

机器人即将迎来“ChatGPT时刻”？英伟达在CES 2025重磅发布Cosmos世界基础模型平台，或掀起“物理AI”革命。

这个平台被称为加速“物理AI”发展的关键一步，目标是推动自动驾驶汽车和机器人领域迈向更高水平。

物理AI赋予机器人更强的环境感知、理解和交互能力。物理AI的进步将极大地推动自动驾驶和机器人等对物理场景要求较高的产业发展。黄仁勋在CES大会上表示，物理AI将彻底改变价值50万亿美元的制造业和物流业，从汽车、卡车到工厂、仓库，所有移动的事物都将实现机器人化，并由AI驱动。

据英伟达官网介绍，物理AI体系包含以Omniverse、Cosmos、Isaac Sim等关键组成部分。其中Cosmos平台利用了超过2000万小时的视频训练数据，旨在“教会AI理解物理世界”。

什么是物理AI？

物理AI，也称为生成式物理AI，是一种使自主机器（如机器人、自动驾驶汽车等）能够在真实物理世界中感知、理解和执行复杂操作的技术。

它扩展了传统的生成式AI，使其能够理解3D世界的空间关系和物理行为。通俗地理解，就是人工智能反馈的内容要符合物理规律。

例如，文生图或者文生视频模型，如果不考虑物理，那生成的内容就缺乏了重力、光学等细节，在加入物理知识后，生成的内容将更加逼真。

黄仁勋早在今年早些时候就强调过，“AI的新一波浪潮是物理AI”。

物理AI将赋予机器人更强的环境感知、理解和交互能力。传统的机器人只能按照预设程序执行任务，而搭载物理AI的机器人则能够更好地理解周围环境，并根据物理规律做出相应的反应。它们可以更好地识别物体、预测运动轨迹、并在复杂环境中进行导航和操作。

“物理AI将彻底改变价值50万亿美元的制造业和物流业，”黄仁勋在本次CES国际消费电子展上表示：

“从汽车、卡车到工厂、仓库，所有移动的事物都将实现机器人化，并由AI驱动。英伟达的Omniverse数字孪生操作系统和Cosmos物理AI是推动全球实体产业数字化的基石。”

英伟达构建了一个完整的物理AI生态系统。据英伟达官网介绍，物理AI体系包含以Omniverse、Cosmos、Isaac Sim等关键组成部分。

Omniverse：加速3D内容创作和物理仿真

Omniverse是一个开放平台，用于构建和连接3D世界。它提供了一系列工具、API和SDK，使开发者能够轻松地创建高保真、基于物理的虚拟环境，用于训练和测试AI模型。

Omniverse的核心是通用场景描述（OpenUSD），它允许不同3D工具之间的数据互操作性。Omniverse在此次发布中也得到了进一步的扩展，例如通过NVIDIA Edify SimReady生成式AI模型，可以自动为现有3D资产添加物理效果或材质等属性，大大加速了3D内容的创建和准备过程。

申万宏源表示，英伟达的未来设想中，机器人技术的发展依赖于三台核心计算机。

一台用于训练AI，一台用于控制物理仿真环境中的测试AI，以及一台安装在机器人或智能汽车内部的模拟环境计算机，支持物理AI算法。

目前正在应用的场景之一在于仿真环境中验证程序逻辑的可靠性；第二个就是获取难以从真实世界获得的数据以持续训练AI模型，目前许多大厂都在采用这种方式，从软件角度，仿真领域的优势企业Ansys，其仿真产品也可以通过英伟达的Omniverse进行访问，凭借Ansys面向摄像头、激光雷达和雷达传感器的物理求解器，增强NVIDIA DRIVE的高保真和可扩展的3D环境，这对于自动驾驶系统的开发至关重要。

通过这种方式，未来行驶过程中的所有数据都可以实时反馈，用于决策制定，同时生成更多类似数据以模拟更多场景，加速训练效果的提升，突破了数据获取的瓶颈。

申万宏源认为，英伟达对Omniverse的大量投入预示着其算力未来的方向主要集中在大模型AI生成、机器人和智能驾驶领域。

Cosmos WFMs：让AI理解物理世界的关键一步

物理AI的开发极为复杂，需要海量的真实世界数据和长时间的测试，开发成本高昂。

而英伟达的Cosmos平台正是为了解决这一痛点，通过其生成式世界基础模型提供物理仿真数据生成能力。Cosmos WFMs让开发者能够快速生成基于真实物理规律的高仿真数据，降低依赖昂贵现实数据的需求。

黄仁勋在主题演讲中指出，Cosmos平台利用了超过2000万小时的视频训练数据，旨在“教会AI理解物理世界”。

这些模型通过将文本、图像、视频以及机器人传感器数据结合，生成多样化的物理环境场景，比如雪地驾驶、拥挤仓库等，从而为自动驾驶和机器人开发提供关键支持。

Cosmos使用了英伟达的NeMo Curator框架以及CUDA加速数据处理流水线，在14天内即可完成对2000万小时视频的处理工作，而这一任务在传统CPU环境下需要3.4年。

Cosmos Tokenizer作为一种最先进的视觉标记器，能够将图像和视频转化为高效的视觉标记，处理速度提升12倍，压缩效率提升8倍。

黄仁勋表示：“机器人领域的‘ChatGPT时刻’即将到来。”和大语言模型（LLMs）推动自然语言处理一样，Cosmos WFMs被认为是机器人和自动驾驶发展的基础性工具：

“我们创建 Cosmos是为了让物理AI民主化，让每个开发人员都能接触到通用机器人技术。”

可以说，Cosmos的发布，补全了英伟达物理AI体系中“理解世界”的重要一环。

多家行业巨头拥抱Cosmos

多家领先企业已经成为Cosmos的首批用户，包括1X、Agile Robots、Waabi、Uber等。这些企业正在利用Cosmos平台推动机器人与自动驾驶技术的进步。

以Uber为例，通过整合其丰富的驾驶数据与Cosmos平台和NVIDIA DGX Cloud的功能，Uber正与英伟达合作加速开发安全且可扩展的自动驾驶解决方案。

Uber 首席执行官Dara Khosrowshahi表示：

“生成式人工智能将为未来的出行提供动力，这需要丰富的数据和非常强大的计算能力。通过与英伟达合作，我们相信我们能够帮助加速行业安全且可扩展的自动驾驶解决方案的开发。”

Agility首席技术官Pras Velagapudi在一份声明中表示：

“数据稀缺性和多变性是机器人环境中成功学习的关键挑战。Cosmos的文本、图像和视频到世界功能使我们能够在各种任务中生成和增强逼真的场景，我们可以使用这些场景来训练模型，而无需花费大量昂贵的真实世界数据捕获。”

目前，Cosmos WFMs已通过英伟达NGC和Hugging Face平台开放下载，开发者可使用这些模型及其微调框架。此外，Cosmos还将通过英伟达的DGX Cloud实现快速部署，并为企业用户提供全面支持。

物理AIはロボットに対してより強力な環境認識、理解、そしてインタラクション能力を与えます。黄仁勲はCES大会で、物理AIが50兆ドルの製造業と物流業を根本的に変えると述べ、「ロボット分野の‘ChatGPTの瞬間’が近づいている」と発言しました。

著者：張雅琦

出典：硬AI

ロボットは「ChatGPTの瞬間」を迎えようとしている？エヌビディアはCES 2025でCosmos世界基盤モデルプラットフォームを発表し、「物理AI」革命を引き起こす可能性があります。

このプラットフォームは「物理AI」の発展を加速させるための重要なステップと呼ばれ、自動運転車とロボットの分野をより高いレベルに進めることを目指しています。

物理AIはロボットに対してより強力な環境認識、理解、そしてインタラクション能力を与えます。物理AIの進展は、自動運転やロボットなど物理的なシーンの要求が高い産業の発展を大きく推進します。黄仁勲はCES大会で、物理AIが50兆ドルの製造業と物流業を根本的に変えると述べました。車からトラック、工場、倉庫まで、すべての動く物体がロボット化され、AIによって動かされることになります。

エヌビディアの公式ウェブサイトによると、物理AI体系はOmniverse、Cosmos、Isaac Simなどの主要構成要素を含んでいます。その中でCosmosプラットフォームは、2000万時間以上の動画トレーニングデータを利用し、「物理世界を理解するAIを教える」ことを目的としています。

物理AIとは何ですか。

物理AI、生成式物理AIとも呼ばれるこの技術は、自律機械（ロボット、自動運転車など）が真の物理世界で感知し、理解し、複雑な操作を実行できるようにするものです。

これは、従来の生成式AIを拡張し、3D世界の空間関係と物理的な行動を理解できるようにします。一般的に言えば、人工知能がフィードバックする内容は物理法則に従う必要があります。

例えば、テキストから画像や動画を生成するモデルは、物理を考慮しない場合、生成された内容は重力や光学などの詳細を欠くことになりますが、物理的知識を追加すると、生成される内容はよりリアルになります。

黄仁勲は今年の早い段階で、「AIの新しい波は物理AIである」と強調しました。

物理AIはロボットに対して、より強力な環境認識、理解、対話能力を与えます。従来のロボットは予め設定されたプログラムに従ってタスクを実行するだけですが、物理AIを搭載したロボットは、周囲の環境をより良く理解し、物理法則に基づいて適切に反応することができます。それにより、物体の認識、運動軌跡の予測、複雑な環境でのナビゲーションや操作が向上します。

「物理AIは50兆ドルの製造業と物流業を根本的に変えるだろう」と黄仁勲は今回のCES国際コンシューマエレクトロニクス展で述べました。

「車、トラックから工場、倉庫に至るまで、すべての動く物体がロボット化され、AIによって駆動されるようになるでしょう。エヌビディアのOmniverseデジタルツインオペレーティングシステムとCosmos物理AIは、グローバルな実体産業のデジタル化を推進する基盤です。」

エヌビディアは完全な物理AIエコシステムを構築しました。エヌビディア公式ウェブサイトによると、物理AIシステムはOmniverse、Cosmos、Isaac Simなどの重要な構成要素から成り立っています。

Omniverse：3Dコンテンツの作成と物理シミュレーションを加速する

Omniverseは、3D世界を構築し接続するためのオープンプラットフォームです。開発者が高忠実度で物理ベースの仮想環境を簡単に作成し、AIモデルのトレーニングとテストを行うためのツール、API、SDKの一連を提供します。

Omniverseの核は、一般的なシーン記述（OpenUSD）であり、異なる3Dツール間のデータ相互運用性を可能にします。Omniverseは今回のリリースでさらに拡張され、NVIDIA Edify SimReady生成的AIモデルを通じて、既存の3D資産に物理効果やマテリアルなどの属性を自動的に追加できるようになり、3Dコンテンツの作成と準備プロセスを大幅に加速します。

申万宏源は、エヌビディアの将来のビジョンにおいて、ロボット技術の発展が3台のコアコンピュータに依存していると述べています。

1台はAIをトレーニングするため、1台は物理シミュレーション環境内でAIをテストするため、そして1台はロボットやスマートカー内部にインストールされたシミュレーション環境コンピュータであり、物理AIアルゴリズムをサポートします。

現在の適用シーンの1つは、シミュレーション環境内でプログラム論理の信頼性を検証することです。第二のシーンは、リアルワールドから得るのが難しいデータを取得してAIモデルを継続的にトレーニングすることです。現在、多くの大手企業がこの方法を採用しており、ソフトウェアの観点からシミュレーション分野の強みを持つAnsysのシミュレーション製品もエヌビディアのOmniverseを通じてアクセスできます。Ansysは、カメラ、LIDAR、レーダーセンサー向けの物理ソルバーを活用して、NVIDIA DRIVEの高忠実度で拡張性のある3D環境を強化し、自動運転システムの開発にとって重要です。

この方法により、将来の運転過程におけるすべてのデータがリアルタイムでフィードバックされ、意思決定に利用され、さらにはより多くの類似データを生成してさまざまなシーンをシミュレーションし、トレーニング効果を加速させ、データ取得のボトルネックを突破します。

申万宏源は、エヌビディアのOmniverseへの多大な投資は、将来の算力の方向性が大モデルAI生成、ロボット、スマートドライビングの分野に集中していることを示唆していると考えています。

Cosmos WFMs：AIが物理世界を理解するための重要なステップ

物理AIの開発は非常に複雑で、大量の実世界データと長期間のテストが必要で、開発コストも高いです。

エヌビディアのCosmosプラットフォームは、この課題を解決するために、生成的世界基礎モデルを通じて物理シミュレーションデータ生成能力を提供しています。Cosmos WFMsは、開発者が実際の物理法則に基づいた高忠実度データを迅速に生成できるようにし、高価な現実データに依存する必要性を減少させます。

黄仁勲は基調講演で、Cosmosプラットフォームが2000万時間以上の動画トレーニングデータを利用して、「AIに物理世界を理解させることを目指している」と指摘しました。

これらのモデルは、テキスト、画像、動画、及びロボットセンサーデータを組み合わせて、雪道運転や混雑した倉庫などの多様な物理環境シーンを生成し、自動運転やロボット開発に重要なサポートを提供します。

Cosmosは、エヌビディアのNeMo CuratorフレームワークとCUDAによるデータ処理パイプラインを使用して、2000万時間の動画処理を14日以内で完了し、従来のCPU環境でこのタスクを行うには3.4年かかるところを短縮しました。

Cosmos Tokenizerは最先端の視覚マーカーとして、画像と動画を効率的な視覚マーカーに変換し、処理速度を12倍、圧縮効率を8倍向上させます。

黄仁勋は「ロボット分野の‘ChatGPTの瞬間’が間もなく到来する」と述べました。大規模言語モデル（LLMs）が自然言語処理を推進するのと同様に、Cosmos WFMsはロボットと自動運転の発展における基盤ツールと見なされています。

「私たちは、物理的AIを民主化し、すべての開発者が汎用ロボット技術にアクセスできるようにするためにCosmosを創造しました。」

Cosmosの発表は、エヌビディアの物理的AIシステムにおける「世界を理解する」という重要な要素を補完しました。

多くの業界の巨人たちがCosmosを受け入れています。

1X、Agile Robots、Waabi、Uberなど、多くのリーディング企業がCosmosの初期ユーザーとなっています。これらの企業は、Cosmosプラットフォームを活用してロボットと自動運転技術の進歩を推進しています。

Uberの例を挙げると、豊富な運転データをCosmosプラットフォームとNVIDIA DGX Cloudの機能と統合することで、Uberはエヌビディアと協力して安全でスケーラブルな自動運転ソリューションの開発を加速しています。

UberのCEOダラ・コスロシャヒは次のように述べました：

「生成型人工知能は未来の移動を推進しますが、それには豊富なデータと非常に強力な計算能力が必要です。エヌビディアとの協力を通じて、安全でスケーラブルな自動運転ソリューションの開発を加速できると信じています。」

Agilityの最高技術責任者プラス・ヴェラガプディは声明の中で次のように述べました：

「データの不足と変動性は、ロボット環境での成功に向けた学習の重要な課題です。Cosmosのテキスト、画像、ビデオから世界機能を使えば、さまざまなタスクにおいてリアルなシーンを生成および強化でき、これらのシーンを利用してモデルをトレーニングすることができます。大量の高価なリアルワールドデータを捕集せずに。」

現在、Cosmos WFMsはエヌビディアのNGCとHugging Faceプラットフォームを通じてダウンロード可能であり、開発者はこれらのモデルとその微調整フレームワークを使用できます。さらに、CosmosはエヌビディアのDGX Cloudを通じて迅速なデプロイを実現し、企業ユーザーに包括的なサポートを提供します。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。更に詳しい情報

英伟达开启”物理AI“大时代，直指机器人”ChatGPT时刻“