share_log

商汤绝影王晓刚:“两段式”端到端再做十年,也成不了智能驾驶的“ChatGPT”

商湯絕影王曉剛:“兩段式”端到端再做十年,也成不了智能駕駛的“ChatGPT”

鈦媒體 ·  07/15 04:42

商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛

在剛剛結束的WAIC 2024上,商湯絕影公佈了一段一鏡到底的視頻。

視頻中,一輛只搭載7個攝像頭的UniAD的車輛,在無圖情況下,不僅自由地穿梭在城市的施工道路、大型路口、紅綠燈路口,即使是在交通狀況複雜的鄉村道路,也能夠順利通過無標識線非對稱路口,避讓停在路邊的靜止車輛以及窄道車輛,還能在無車道線大麴率彎道右轉。

這一系列絲滑的駕駛動作,讓人印象深刻。其背後仰賴的正是商湯絕影在行業首個提出的感知決策一體的端到端自動駕駛方案UniAD。

在過去幾年的時間裏,智能駕駛一直都是車企追逐的焦點,但實際的駕駛水平往往差強人意。在ChatGPT橫空出世之後,智能駕駛行業也一直在期待同樣的質變時刻。

恰在此時,“端到端”指明瞭一個方向。今年以來,智能駕駛行業對於端到端的關注度一路升溫。無論是小鵬、理想、蔚來、長城這樣的車企還是華爲、元戎啓行、毫末智行這樣的技術提供商,都不約而同地轉向端到端路線。

早在2022年末,商湯絕影便提出了感知決策一體化自動駕駛通用模型UniAD,DriveAGI也是在UniAD的基礎上迭代而成,通過多模態大模型加持端到端方案,打造下一代自動駕駛技術。即便在路上遇到救護車,憑藉DriveAGI的認知能力,車輛也能夠準確識別理解目標,並主動讓路。

DriveAGI不僅能識別救護車,還能做到主動讓行執勤救護車

經過兩年的先手佈局,現在,商湯絕影入局早、迭代快的優勢正逐漸顯現出來——已經與超過30家國內外車企合作,覆蓋超90款車型,累計交付195萬輛智能汽車。在合作過程中,商湯絕影與車企找到各自的邊界,發揮各自的優勢,正一道加速自動駕駛“GPT時刻”的到來。

“技術路線不對,就算上車也徒勞”

站在衆多玩家扎堆進軍端到端的時刻,商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛向鈦媒體App回顧了當初爲何會搶先看準了端到端?

2017年,商湯與日本本田汽車宣佈合作,共同研發L4自動駕駛技術。商湯本身是以AI視覺技術起家,當時本田汽車要求商湯只用攝像頭,沒有高精地圖的情況下實現智能駕駛功能,這可以被看作是端到端的雛形。自那之後,團隊開始持續研究端到端。

現在,端到端的競爭雖然如火如荼,但一個普遍存在的問題是:端到端技術路線還未形成最佳實踐,技術路線存在分歧。

王曉剛對鈦媒體App介紹說,目前大部分的端到端方案,採用的都是更易落地的“兩段式”方案,即由感知和決策兩個模型組成。“第一段感知的部分本身就已經在應用神經網絡了,因此變化不大。最大的變化在第二段的規劃控制部分,原來這部分是靠寫規則實現,現在則是同樣應用神經網絡去做。”

不過,在他看來,“兩段式”的方案就是把兩個小模型接在一起,端到端聯合優化一下。在“兩段式”方案裏,信息經過感知模型過濾後,損失較多,只剩下一些人、車、物之類的標籤,因此第二段模型事實上只是一個小模型。“兩段式方案和一段式方案最核心的差異就在於,是小模型時代還是大模型時代。”

王曉剛直言,“兩段式”方案就算再做10年,也成不了自動駕駛的“ChatGPT”。

正是考慮到這些問題,從研發一開始商湯絕影採用的就是將感知、決策、規劃等模塊都整合到一個全棧Transformer端到端模型中,實現感知決策一體化的“一段式”方案。也就是由傳感器輸入,直接輸出行爲的軌跡。

在這個過程中,機器會像人腦一樣綜合信息並思考判斷,就像你在讀一篇推理小說,小說中有各種不同的人物和情節,有密室、有謎團,你在讀推理小說的過程中完全不清楚接下來會發生什麼。通過小說不同的人物和情節,你預測兇手有幾種可能性,機器大腦所做的內容就像一本推理小說一樣。

不過,一段式方案和兩段式方案雖然僅有一字之差,但是難度卻相差懸殊。王曉剛解釋說,採用一段式路線,前端的視頻信息量是非常巨大的,但輸出的信號又需要非常精準,這對整個網絡的訓練、數據和Pipeline的要求更高。

“‘一段式’方案很難,但一旦模型學出來能力會很強,這才是我們追求的自動駕駛裏面的‘ChatGPT’時刻。”王曉剛說到。

“純粹的端到端自動駕駛模型不是自動駕駛的最終答案”

技術路線的選擇是第一步。2022年底,商湯及其聯合實驗室提出了行業首個感知決策一體化自動駕駛通用模型UniAD,並在次年榮獲2023年國際計算機視覺與模式識別會議(CVPR)最佳論文。

今年北京車展,商湯絕影展示了UniAD的實車上路成果,能在城區道路和鄉村小路上自如行駛。緊接着,在WAIC 2024上,商湯絕影又展示了UniAD城區複雜道路、鄉村小路等一鏡到底的實車演示。

UniAD是一個純視覺端到端自動駕駛通用模型,雖然提升了智駕系統的駕駛能力,但純粹的端到端自動駕駛模型不是自動駕駛的最終答案。王曉剛表示,智能汽車走向超級智能體的重要標誌就是進一步具備對開放世界的感知、推理、決策及交互能力。因此,商湯絕影又基於多模態大模型打造智駕大模型DriveAGI。

DriveAGI的進化方向就是讓端到端智駕“可解釋、可交互”。

所謂的可解釋,就是不僅讓車輛能夠更像人一樣理解複雜的現實世界,洞察各類交通參與者的行爲動機,快速學習各種交通規則,掌握瞬息萬變的道路信息,還能向用戶解釋駕駛決策的推理過程。

比如,一輛正常行駛在兩車道右側的車輛,在搭載了DriveAGI之後,當它發現後方有救護車接近時,可以第一時間識別到,並且能夠判斷出該救護車是在執勤狀態,需要讓路。因此,在第一時間判斷出左側道路還有變道空間,及時由右側道路變道左側,保證救護車順利快速通行。整個過程就類似人腦一樣,對於路上遇到的不同情況不僅能看清楚,還能基於交通規則等進行思考和判斷,做出正確的駕駛動作。

可交互性則是指用戶不僅可以通過問詢讓DriveAGI解釋自己的決策過程,還能通過語音或手勢指令來控制自動駕駛行爲。例如,未來在自動駕駛狀態下,導航指示車輛需在下個路口調頭以抵達目的地,但駕駛員知曉可在前方有近路可以直接轉彎,那麼他只需對系統說出“直接左拐”,系統便會根據當前路況來執行這一指令。

從黑盒運行、單向輸出到可解釋、可交互,關鍵的竅門在於——如何去訓練模型。

模型訓練的第一要素就是數據量大、模型參數大。馬斯克之前曾談到過數據對自動駕駛模型的重要性:訓練了100萬個視頻Case,勉強夠用;200萬個,稍好一些;300萬個,就會感到Wow;到1000萬個,就變得難以置信了。

王曉剛也表示,現在網絡結構並非核心祕密,大家的網絡結構都較爲相似。關鍵在於,在相似的網絡結構下,如何實現卓越的性能質量。這主要取決於模型規模是否足夠大以及數據生產管線是否強大。

深耕AI領域十年,商湯落地了衆多行業,城市智能、商業、醫療、金融、自動駕駛,甚至在鋼鐵、煤礦、電力等工業場景,在各個行業積累了大量的多模態數據。7月5日,商湯絕影在WAIC 2024上現場演示的搭載在200 TOPS+平台上的8B模型車端部署方案就有80億參數。

商湯絕影車載端側8B多模態模型性能

量有了,質也得保證。王曉剛就表示,不能一味只關注數據量和模型的參數量,如果沒有一個難的任務,即使再增加數據量和參數,模型的能力也只是在原地打轉。

緊接着,他還舉例說,蜜蜂能夠在那麼複雜的蜂窩裏工作,做得那麼精準,那麼好,但它們永遠都只有單一的技能,只能幹這一件事。而人的大腦就不一樣了,人類經過幾千年的進化,能夠把衛星火箭都送上天去。“這就是通用的能力與專屬的能力的區別。蜜蜂它一輩子、兩輩子、三輩子都只做一件事,就像模型一樣,如果你一直只給它喂人、車、物的數據,喂一輩子它還只能幹這個事兒。”

除了數據之外,強大的算力供應,是如今最稀缺,也最有競爭力的要素。

商湯絕影是業內少有的算力供應大戶。從2018年開始,商湯開始佈局算力基礎設施,在上海臨港建設智算中心AIDC,擁有45000張GPU對外提供大模型訓練與推理服務,能夠訓練幾千億甚至萬億參數的模型。依託AIDC加持的商湯絕影的運營算力規模達到12000 P,預計到2024年第四季度,峯值算力將達到25000 P。

“不排斥白盒交付,草木繁榮才能生態共贏”

技術再好,關鍵還是要看落地。

王曉剛介紹說,商湯絕影的量產智駕產品已落地廣汽埃安LX Plus、合衆哪吒S、廣汽昊鉑GT、紅旗等多個品牌及車型,高速NOA等功能也開始落地,同時絕影還在推進更多車型交付。6月初,廣汽和一汽入選國內首批L3試點項目,商湯絕影爲他們提供面向L3的感知算法。不止如此,商湯絕影目前的多個量產智駕方案在未來均可升級爲端到端架構。

手握不少客戶和訂單,但以商湯絕影爲代表的技術方案提供商們不得不面對的一個問題——車企自研。

以特斯拉爲例,它的特點就在於它既做AI,擁有大量基礎設施,比如成千上萬的GPU,同時還有每年數百萬臺的車,掌握着終端用戶的信息和數據,形成了自己的閉環。

其他家車企是否會效仿?以及能不能效仿?王曉剛表示,即便如微軟這樣實力強大、人力資源豐富的公司,也選擇砍掉了自己的AI團隊,轉而與OpenAI合作。

同時,他解釋說,所謂的“自研”並不是說要從頭到尾都由自己來完成所有事情,關鍵在於可控。“只要讓車企客戶了解並主導掌控其中發生的所有事情,能夠利用自己的平台對產品進行迭代,這就足夠了。”

因此,在合作方式上,以往商湯絕影傾向於將代碼作爲黑盒交付,認爲這是最寶貴的資產。但王曉剛透露,現在商湯絕影並不排斥白盒交付。因爲即便提供了代碼,通過更深入的迭代與合作,也能夠迅速提升競爭力。

此外,合作還能夠幫助車企節省資金。“我們在大模型上的投入已超過100億,並在此過程中建立了自己的基礎設施、大型裝置和盈利的雲服務,實現了收支平衡。通過與我們合作,車企將無需承擔這部分巨額投入。車廠無需親自涉足這些領域,我們會向車廠開放相關資源。”

不過,他也坦言,與車企合作面臨的一個問題是數據反饋的不足。通常終端數據的反饋依賴於車廠的主動提供,這可能導致數據迭代和循環效率不高。因此,與車企客戶的深入合作顯得尤爲重要。

商湯絕影通過白盒交付的方式,幫助車企夥伴理解大模型技術、掌握know-how,另一方面,作爲合作伙伴的主機廠能夠和絕影共享不涉及隱私和機密的數據和信息,從而訓練出更加強大的車載原生大模型,雙方共同開發,加速產品迭代,打造真正以用戶爲中心的智能汽車原生的AI大模型產品。

在行業領先的豐沛算力、全球領先的「日日新」大模型能力的基礎上,通過更加深入的戰略合作模式,商湯絕影將與主機廠等衆多合作伙伴共創共贏。

商湯絕影把端到端大模型上車時間定在2025年,王曉剛表示,ChatGPT出來的時候,也並不是所有的事情都做得完美,比如GPT 3.5在做任務時,也有很多事情幹不好。但是關鍵在於大家都看到了一個正確的方向,沿着這條路走是沒問題的,只是還需要再多迭代幾個月的時間。端到端同樣如此。

同時,他還自信地表示,明年商湯絕影的端到端開始量產的時候,用戶會在一些場景中看到以前完全無法做到的事情,而那些就會是湧現出的新能力。

英偉達汽車事業部副總裁吳新宙曾公開表示,端到端正是智駕三部曲的最終曲。而在通往終局的路上,商湯絕影值得重點關注與期待。

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論