share_log

英伟达开启”物理AI“大时代,直指机器人”ChatGPT时刻“

英偉達開啓”物理AI「大時代,直指機器人」ChatGPT時刻“

華爾街見聞 ·  01/07 20:52

物理AI賦予機器人更強的環境感知、理解和交互能力。黃仁勳在CES大會上表示,物理AI將徹底改變價值50萬億美元的製造業和物流業,「機器人領域的『ChatGPT時刻』即將到來。」

作者:張雅琦

來源:硬AI

機器人即將迎來「ChatGPT時刻」?英偉達在CES 2025重磅發佈Cosmos世界基礎模型平台,或掀起「物理AI」革命。

這個平台被稱爲加速「物理AI」發展的關鍵一步,目標是推動自動駕駛汽車和機器人領域邁向更高水平。

物理AI賦予機器人更強的環境感知、理解和交互能力。物理AI的進步將極大地推動自動駕駛和機器人等對物理場景要求較高的產業發展。黃仁勳在CES大會上表示,物理AI將徹底改變價值50萬億美元的製造業和物流業,從汽車、卡車到工廠、倉庫,所有移動的事物都將實現機器人化,並由AI驅動。

據英偉達官網介紹,物理AI體系包含以Omniverse、Cosmos、Isaac Sim等關鍵組成部分。其中Cosmos平台利用了超過2000萬小時的視頻訓練數據,旨在「教會AI理解物理世界」。

什麼是物理AI?

物理AI,也稱爲生成式物理AI,是一種使自主機器(如機器人、自動駕駛汽車等)能夠在真實物理世界中感知、理解和執行復雜操作的技術。

它擴展了傳統的生成式AI,使其能夠理解3D世界的空間關係和物理行爲。通俗地理解,就是人工智能反饋的內容要符合物理規律。

例如,文生圖或者文生視頻模型,如果不考慮物理,那生成的內容就缺乏了重力、光學等細節,在加入物理知識後,生成的內容將更加逼真。

黃仁勳早在今年早些時候就強調過,「AI的新一波浪潮是物理AI」。

物理AI將賦予機器人更強的環境感知、理解和交互能力。傳統的機器人只能按照預設程序執行任務,而搭載物理AI的機器人則能夠更好地理解周圍環境,並根據物理規律做出相應的反應。它們可以更好地識別物體、預測運動軌跡、並在複雜環境中進行導航和操作。

「物理AI將徹底改變價值50萬億美元的製造業和物流業,」黃仁勳在本次CES國際消費電子展上表示:

「從汽車、卡車到工廠、倉庫,所有移動的事物都將實現機器人化,並由AI驅動。英偉達的Omniverse數字孿生操作系統和Cosmos物理AI是推動全球實體產業數字化的基石。」

英偉達構建了一個完整的物理AI生態系統。據英偉達官網介紹,物理AI體系包含以Omniverse、Cosmos、Isaac Sim等關鍵組成部分。

Omniverse:加速3D內容創作和物理仿真

Omniverse是一個開放平台,用於構建和連接3D世界。它提供了一系列工具、API和SDK,使開發者能夠輕鬆地創建高保真、基於物理的虛擬環境,用於訓練和測試AI模型。

Omniverse的核心是通用場景描述(OpenUSD),它允許不同3D工具之間的數據互操作性。Omniverse在此次發佈中也得到了進一步的擴展,例如通過NVIDIA Edify SimReady生成式AI模型,可以自動爲現有3D資產添加物理效果或材質等屬性,大大加速了3D內容的創建和準備過程。

申萬宏源表示,英偉達的未來設想中,機器人技術的發展依賴於三臺核心計算機。

一臺用於訓練AI,一臺用於控制物理仿真環境中的測試AI,以及一臺安裝在機器人或智能汽車內部的模擬環境計算機,支持物理AI算法。

目前正在應用的場景之一在於仿真環境中驗證程序邏輯的可靠性;第二個就是獲取難以從真實世界獲得的數據以持續訓練AI模型,目前許多大廠都在採用這種方式,從軟體角度,仿真領域的優勢企業Ansys,其仿真產品也可以通過英偉達的Omniverse進行訪問,憑藉Ansys面向攝像頭、激光雷達和雷達傳感器的物理求解器,增強NVIDIA DRIVE的高保真和可擴展的3D環境,這對於自動駕駛系統的開發至關重要。

通過這種方式,未來行駛過程中的所有數據都可以實時反饋,用於決策制定,同時生成更多類似數據以模擬更多場景,加速訓練效果的提升,突破了數據獲取的瓶頸。

申萬宏源認爲,英偉達對Omniverse的大量投入預示着其算力未來的方向主要集中在大模型AI生成、機器人和智能駕駛領域。

Cosmos WFMs:讓AI理解物理世界的關鍵一步

物理AI的開發極爲複雜,需要海量的真實世界數據和長時間的測試,開發成本高昂。

而英偉達的Cosmos平台正是爲了解決這一痛點,通過其生成式世界基礎模型提供物理仿真數據生成能力。Cosmos WFMs讓開發者能夠快速生成基於真實物理規律的高仿真數據,降低依賴昂貴現實數據的需求。

黃仁勳在主題演講中指出,Cosmos平台利用了超過2000萬小時的視頻訓練數據,旨在「教會AI理解物理世界」

big

這些模型通過將文本、圖像、視頻以及機器人傳感器數據結合,生成多樣化的物理環境場景,比如雪地駕駛、擁擠倉庫等,從而爲自動駕駛和機器人開發提供關鍵支持。

Cosmos使用了英偉達的NeMo Curator框架以及CUDA加速數據處理流水線,在14天內即可完成對2000萬小時視頻的處理工作,而這一任務在傳統CPU環境下需要3.4年。

Cosmos Tokenizer作爲一種最先進的視覺標記器,能夠將圖像和視頻轉化爲高效的視覺標記,處理速度提升12倍,壓縮效率提升8倍。

黃仁勳表示:「機器人領域的『ChatGPT時刻』即將到來。」和大語言模型(LLMs)推動自然語言處理一樣,Cosmos WFMs被認爲是機器人和自動駕駛發展的基礎性工具:

「我們創建 Cosmos是爲了讓物理AI民主化,讓每個開發人員都能接觸到通用機器人技術。」

big

可以說,Cosmos的發佈,補全了英偉達物理AI體系中「理解世界」的重要一環。

多家行業巨頭擁抱Cosmos

多家領先企業已經成爲Cosmos的首批用戶,包括1X、Agile Robots、Waabi、Uber等。這些企業正在利用Cosmos平台推動機器人與自動駕駛技術的進步。

big

以Uber爲例,通過整合其豐富的駕駛數據與Cosmos平台和NVIDIA DGX Cloud的功能,Uber正與英偉達合作加速開發安全且可擴展的自動駕駛解決方案。

Uber 首席執行官Dara Khosrowshahi表示:

「生成式人工智能將爲未來的出行提供動力,這需要豐富的數據和非常強大的計算能力。通過與英偉達合作,我們相信我們能夠幫助加速行業安全且可擴展的自動駕駛解決方案的開發。」

Agility首席技術官Pras Velagapudi在一份聲明中表示:

「數據稀缺性和多變性是機器人環境中成功學習的關鍵挑戰。Cosmos的文本、圖像和視頻到世界功能使我們能夠在各種任務中生成和增強逼真的場景,我們可以使用這些場景來訓練模型,而無需花費大量昂貴的真實世界數據捕獲。」

目前,Cosmos WFMs已通過英偉達NGC和Hugging Face平台開放下載,開發者可使用這些模型及其微調框架。此外,Cosmos還將通過英偉達的DGX Cloud實現快速部署,併爲企業用戶提供全面支持。

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論