share_log

理想要和特斯拉掰手腕

理想要和特斯拉掰手腕

華爾街見聞 ·  09/04 08:31

智駕大戰。

big

作者 | 柴旭晨

編輯 | 周智宇

在外界印象中,理想的智駕一直是追趕者的狀態,但在ALL IN端到端後,理想竟然自信地說已經超過特斯拉了。

在8月30日的成都車展,理想汽車智駕團隊詳細發佈了「端到端+VLM」方案,不同於國內同行的「分段式端到端」,理想的方案是被稱爲「OneModel」的一張大網。

這是目前自動駕駛架構演進的最終形態,該階段不再有感知、決策規劃等模塊的明確劃分,從原始信號輸入到最終規劃軌跡的輸出,採用一個深度學習模型,完整無損地應用於自動駕駛。

在理想智駕研發副總裁郎咸朋看來,死磕「最終版」的端到端,正是理想得以彎道超車的祕密。

「過去的智駕方案,不管是輕圖還是無圖,底層技術架構都是有人爲設計成分的,如果想將一年四季各種情況都跑一遍,沒有一兩年時間是不可能實現。所以我們迭代了端到端+VLM技術架構」,郎咸朋認爲,該架構是AI自己生長的,「真正變成車自己在開」。

不僅如此,理想開始打造「世界模型」來加速智駕AI的訓練,「世界模型可以生成、模擬場景,這是幾千萬個場景測試」,理想智駕高級算法專家詹錕表示,這是實現智駕快速迭代最重要、且最必要的保證,並且「世界模型」還是將來碾壓端到端的存在。

「它可以根據當前的環境預測未來,能推理出未來的場景。比如球滾到路中間,端到端只會剎車,世界模型會想後面會不變還有小孩衝出來?它對世界有更宏觀綜合的判斷」。詹錕表示,理想在上車端到端的同時,就已經預研下一代技術了。

因此郎咸朋凡爾賽地表示,「我們跟特斯拉沒有太大差別,甚至更領先一點」。

敢於與特斯拉FSD這個全球智駕標杆掰手腕,不僅在於理想雙系統架構的超前,更在於理想在新勢力當中領先的銷量和財力。郎咸朋說真正做到端到端要看兩個能力,「有沒有足夠多的數據和充足的算力,因爲它是AI訓練」。

他表示,爲了訓練好自家智駕系統,理想對數據質量要求極高,只精選3%「老司機」數據餵給AI,但在80萬車主基數下數據量已經足夠龐大;而爲了消化這些數據,理想到今年底要將算力提升至8億EFLOPS,「這是一年20億人民幣的花銷」。

在郎咸朋眼中,高階智駕是巨頭才能玩得起的遊戲,「未來到L4階段,數據和算力的增長都呈指數級,每年至少需要10億美金,一家企業的盈利和利潤不能支撐投入的話就很困難」。

靠着端到端的初步上車,理想已經獲得了銷量的快速轉化。接下來它還要持續發力這個「頭號工程」,這或許將是帶領它成爲比肩比亞迪、特斯拉的關鍵一環。

以下是華爾街見聞與理想智駕研發副總裁郎咸朋、智駕高級算法專家詹錕的對話實錄(經編輯):

問:什麼才是真正的端到端?怎麼評價它是真的端到端?什麼樣的效果才是最好的?

詹錕:端到端是一種研發的範式,從最開始的輸入端到最後的輸出端,中間沒有其他過程,用一個模型完整實現。現在理想汽車是一體化OneModel端到端,通過直接傳感器輸入,模型推理完畢後直接給到軌跡規劃用來控車,這就是一體化端到端。

市面上還有一種端到端,是在中間分兩個模型,模型中間以一個信號做橋接,但我們認爲這不是真正的端到端,如果中間加了人爲的信息消化過程,可能效率不是那麼高或能力上限受到約束。

郎咸朋:現在很多人都說自己是端到端模型,但是真正做端到端還是要看兩個能力:有沒有足夠多的數據和充足的算力。否則我覺得很難做出真正的端到端來,因爲它是AI訓練。

問:現在很多品牌提出自己是引領者,理想汽車也在說已經躋身智能駕駛第一梯隊,怎樣評價自家端到端的技術水平?

郎咸朋:普通消費者不關注技術而是體驗,我們也不和誰比。

以前我們爲做城市NOA考慮過用高精地圖,但後續因爲體驗因素決定轉做無圖,但那時的無圖還是感知、規劃、分模塊的方案,裏面有大量的人工規則和實車測試。

先不說預算投入方面,時間上就非常困難,如果想將一年四季的各種情況都跑一遍,沒有一兩年時間是不可能實現的。所以我們又迭代到端到端+VLM技術架構,這是AI方案是自己長出來的。

之前輔助駕駛是系統輔助人來開,主體是人,但是到現在端到端+VLM階段後,我們認爲是變成車自己在開。訓練出完整模型之後,模型自己有能力開好這個車,我監督這個車哪裏不行或者有提示需要接管,但是主體一定是車,人作爲一種監督的輔助角色。

問:端到端的研發週期大概多久?

郎咸朋:理想認真做端到端+VLM是從去年開始的,我們在研發階段是一個非常小而精的團隊,做無圖的時候已經在預研端到端,現在做端到端實際已經預研下一代技術了。當判斷條件已經成熟和初步驗證成功,會轉到量產階段。

問:端到端最早是特斯拉提出來的,我們是不是受到特斯拉的啓發?我們怎麼確定流程一定能跑通?

詹錕:端到端不是特斯拉第一個提出來的,2016年英偉達就有一個模型提到了這個技術,但效果一般只解決了特別簡單的場景,以當時算力和模型規模,大家認爲這條路是行不通的。到2023年,特斯拉在新transformer架構上增加了超大算力做出來之後,在往更有成長的方向上推進。

問:理想目前感受自己和特斯拉智駕的差距有多大?

郎咸朋:去年那會過差半年,今年可能還會再小一點。從技術架構上,我們跟特斯拉沒有太大差別甚至更領先一點,因爲我們有VLM,特斯拉只有端到端。在中國的訓練算力和訓練數據上,至少從現在看我們是領先於它,因爲特斯拉在中國還需要算力部署。

另外我們也用上了世界模型,可以生成、模擬場景,這是幾千萬個場景測試,這是實現智駕快速迭代最重要、且最必要的保證。這種方式進行模型迭代比原來整車或者路試的方式要可靠得多,而且一年四季各種場景全都可以涵蓋。

詹錕:世界模型可以根據當前的環境去預測未來,能夠推理出未來的場景。比如,球滾到路中間,端到端只會剎車,但世界模型會想是不是還會有小孩衝出來?它對世界有更宏觀綜合的判斷。其實VLM在我們系統上就是起到這個效果,當然我們現在模型規模還很小,能力是有限的。

問:前不久有人提出「500億做不好智駕」的觀點,理想對此有什麼看法?

郎咸朋:關於500億,需要判斷是一次性投資還是長期投資,就像今天提到的我們每年都會有10億美金投資在智駕研發中,如果連續10年的話是超過500億。

端到端+VLM的技術架構是一個分水嶺,從這一代開始才是真正用AI的方式做。

之前我們還是在用傳統方式做智駕,所有產品的最終效果,都是有「設計」在裏面,沒有設計到的場景可能就無法實現。不僅無法實現純粹的數據去驅動,人工工作量也大。

一體化的端到端模型,雖然在模型的結構、模型的訓練方式上有難度,但最大的好處是,我們給出數據訓練模型,模型輸出結果,這樣自然而然的AI訓練過程。

從我們自己的端到端模型來看,只需要告訴它要做和「老司機」一樣的駕駛體驗,輸入所有理想車主中「老司機」的駕駛數據,它就給你結果。數據篩選是非常嚴格的,在當時80萬車主中,只有3%才是真正的老司機的數據。

在有了這個前提之後,接下來做研發的核心競爭,看是否有更多更好的數據和與之配套的算力去訓練模型。而算力和數據的獲取,需要看花多少錢、投入多少資源去做。而這其中有些東西是用錢買不到的,比如訓練數據、訓練里程,各家車企有自己的資源,相互之間並不會互通共享。

另一個需要投資的是算力,我們現在5.39億EFLOPS的算力,到今年年底預計8億EFLOPS,這是一年20億人民幣的花銷。

未來進入到L4階段,每年數據和算力都呈指數級增長,這也就意味着每年至少需要10億美金。5年之後,它需要持續迭代,在這樣的量級下,一家企業的盈利和利潤不能支撐投入的話,是很困難的。

所以,現在並不需要關注投入多少億做自動駕駛,而是從本質上出發,是否有充分的算力和數據支持,再看看需要投入多少錢。

問:過去幾年智駕的技術戰快速變化經歷了幾次大迭代,鉅變還會發生嗎?

郎咸朋:端到端+VLM雙系統是模擬人類思考認知的架構,因爲我們做AI最終希望可以實現擬人或者類人。目前的AI框架是非常合理的,很多企業也開始嘗試跟進。

雙系統理論,不僅可以用在自動駕駛上,也是未來AI甚至智能機器人的範式。自動駕駛可以說是一個輪式智能機器人,只是工作範圍是道路。所以,我覺得是有一定的長期行爲力,但技術發展是無窮無盡的,我們會保持對先進技術的敏捷感知,如果有新的技術我們也會追蹤。

問:端到端量產交付之後能給銷量帶來多大的增量?

郎咸朋:無圖NOA全量推送之後,近兩個月我們試駕翻了一倍。30萬以上的車型AD Max佔比達到70%,原先AD Pro會多一些,L9 AD Max甚至佔比90%以上。

問:理想汽車對高階智駕有沒有收費的計劃?有什麼好的商業模式?

郎咸朋:標配和免費都是理想從第一天開始進入智能駕駛就制定的策略,「有監督的自動駕駛」對所有AD Max的車主都是不收費的,它還能爲自動駕駛提供更多的車輛訓練里程。因此交付量比較好且企業經營穩健,也有足夠的資源投入智駕研發。

詹錕:理想有非常豐富的數據,我們相信這些數據是能夠支持我們做好的優勢。所以我們選擇了挑戰更大、更困難的端到端一體化架構,它的上限很高,但缺點是訓練更難,包括數據配比和訓練方法需要去探索和挖掘,但我們還是毅然決然地選擇了難而正確的道路。

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論