外界對理想汽車的認知,似乎存在不少誤解。
在衆多新興汽車品牌中,理想汽車常常被指責「沒有技術」,甚至有些聲音將其產品貶低爲「工業垃圾」。尤其在智能座艙方面,外界對其印象似乎僅限於冰箱、彩電和大沙發等元素。
這種誤解看似有其道理。理想汽車創始人李想被認爲是車圈最優秀的產品經理,他敏銳地洞察了多孩家庭的需求,並針對這一細分市場提供了更好的用車體驗。
在這過程中,理想汽車的宣傳策略長久以來是將技術細節置於幕後,更注重於展示產品的使用體驗,比如寬敞的空間、舒適的配置以及影音娛樂等功能,而相對少提及自主研發技術。這些在無形中造成了外界對理想汽車的認知偏差。
儘管理想汽車率先推出了冰箱、彩電和大沙發等配置,但理想汽車深信,真正能夠提升智能座艙體驗的,將是他們自研的大模型——Mind GPT。理想汽車在2023年一季度開始了這一項目,成爲全球首個自研大模型上車的汽車企業。
在廣州車展開始前,極客公園在北京望京的理想汽車辦公室,採訪了理想汽車的AI首席科學家兼智能座艙AI負責人陳偉。他分享了大模型在汽車中的應用及人機交互助手-理想同學的未來展望。
目前,理想汽車已成爲新能源車企中的交付領跑者,但其戰略目標遠不止於此。陳偉表示,理想不僅僅是一家車企,更是一家人工智能公司,智能汽車連接了物理世界和數字世界,他們希望把身處數字世界的理想同學打造成未來的智能體。發展分爲三個階段:首先增強用戶的能力;其次成爲用戶的得力助手;最後成爲能陪伴用戶的家人。當然,這個三個階段不是涇渭分明,是會相互交叉的。
對於未來,理想設定了一個宏偉的目標:成爲全球領先的人工智能企業。他們的智能電動車不僅會成爲最早的人工智能機器人,還將構建物理世界中的AI生態系統。如今,理想汽車正穩步朝着這一目標邁進。
理想不僅是一家車企,更是一家人工智能企業
Q:外界對理想智能座艙的發展歷程了解不多,你能先介紹下嗎?
陳偉:理想智能座艙的AI交互技術經歷了三代發展。最早,我們主要依賴供應商技術,但三年前開始自主研發,逐步建立了基於視聽融合的多模態交互技術,實現了從語音交互到智能認知的全棧閉環。2023年初,我們啓動了大模型的研發,年底成功將其應用在車載系統中。
在大模型出現前,語音交互主要是命令式或任務型的,行業競爭更多集中在語音識別的速度、執行的準確性和響應效率上。然而,提升家庭用戶體驗始終是我們的目標。我們專注於「全家人」的用車場景,打造「三維空間交互」的智能座艙。這一座艙不僅是生活和工作之外的「第三空間」,也是一個高性能運算平台,搭載了豐富的傳感器和強大的本地算力,爲創新功能奠定了基礎。
例如,我們在座艙中實現了「無音區」技術,不再侷限於某個特定區域,而是基於空間座標定位和跟蹤聲源。此外,我們開發了「方言自由說」功能,現已支持9種方言,便於不同用戶群體使用。我們還添加了隔空觸控和手勢識別,結合語音指令,進一步降低用戶的交互成本。
在研發理想同學的技術時,我們始終專注於讓人機交互更自然、高效,致力於爲用戶提供強大而超出預期的智能體驗。
Q:理想在研發自研大模型時主要考慮了哪些因素?
陳偉: 在研發大模型之前,車內的應用場景主要集中在車控、媒體、導航等任務型對話,且感知技術趨於成熟,但認知能力仍然不足,尤其在複雜任務理解、知識問答、開放式對話上存在侷限,這也制約了理想同學的產品力。
我們在2022年便開始推動預訓練語言模型技術,逐步提升理想同學的自然語言理解能力。而2023年初,隨着ChatGPT的發佈,我們更加堅定大模型是突破認知能力的關鍵。因此,決定啓動Mind GPT的全棧研發,以期推動理想同學的體驗跨越式提升。
當時,開源生態剛剛起步,業界對大模型的理解也較爲模糊。爲加快進展,我們投入大量資源從大模型基座開始探索大模型「無人區」技術。研發初期,我們專注於車內高頻使用場景,打造理想同學在大模型時代的新角色,包括用車助手、娛樂助手、出行助手和百科老師,力求讓大模型表現出色,並能實現無感知的能力升級,同時與原有的任務型對話無縫融合,從而提升理想同學的智能化水平。
Q:在大模型與傳統對話系統的融合中遇到了哪些挑戰?
在開發Mind GPT時,我們投入大量精力解決了任務型對話系統與大模型能力的融合問題。許多車企的大模型系統需要特定指令才能啓用,導致原有功能失效。而我們的目標是讓理想同學在智能化提升的同時,保留用戶熟悉的交互體驗,讓用戶在自然中感受到功能進步。
此外,隨着大模型的對話能力提升,理想同學在用戶對話中可能會插話干擾。因此,我們設計了多模態用戶意圖判定算法,讓理想同學能夠精準識別是否在與他交流,從而實現「隨叫隨到」卻不打擾用戶的體驗。
大模型在信息準確性和時效性上存在「幻覺」問題。爲此,我們設計Mind GPT具備連接知識庫及互聯網的能力,以確保用戶獲取的信息準確且及時。這也是我們在優化模型體驗時着重突破的方向。通過不斷探索用戶場景,我們在大模型研發的過程中,也在持續擴展其應用深度和廣度。
Q:Mind GPT經過了從1.0到3.0的迭代,這個過程中有哪些關鍵技術突破?
陳偉:Mind GPT的演進經歷了三個重要階段:
1.0 大語言模型: 聚焦大語言模型能力的打造,在模型效果及推理效率找到最優解,實現理想同學認知能力的躍遷,這個階段重在語言理解、生成、知識問答等能力
2.0 語言智能體: 聚焦大語言模型應用能力的打造,核心是構建圍繞Mind GPT的智能體技術及工程體系,理想同學光有一個聰明的大腦是不夠的,他的規劃、記憶、工具、行動的能力都要足夠的好,才能具備自主性,解決更多複雜問題。
3.0 多模態智能體: 聚焦多模態的智能體能力打造,核心是構建融合感知和認知的多模態端到端模型的能力,將人機交互感知和認知的級聯繫統升級到單一端到端模型,在交互延遲極大降低的同時,多模態數據的融合訓練能夠進一步提升模型的學習質量和效率,實現模型能力顯著提升。
Q:最近,理想汽車連續發佈三篇人工智能頂會論文,能簡單介紹一下這些論文的內容嗎?
陳偉: 這三篇論文主要聚焦於提升大模型的感知能力、解決人類-物體交互(HOI)檢測中的長尾問題,以及應對大模型的「幻覺」問題,爲理想汽車的多模態、端到端智能體構建提供了重要技術支持。
第一篇論文(文章尾部參考文獻處有詳細介紹) 探討了如何有效將多模態信息與大語言模型(LLM)融合。當前大多數多模態模型將不同模態的內容對齊到語言模型的語義空間,以便利用其強大能力。然而,傳統模態連接器往往無法針對特定任務提取所需的模態信息。爲此,論文提出了Q-MoE(高效的混合專家模態連接器),通過引入文本信息的監督,使多模態信息提取更具針對性。Q-MoE採用創新的模型結構和混合專家路由策略,在跨模態多任務學習中的性能顯著超過現有連接器。
第二篇論文 提出了KG-Adapter,這一技術將知識圖譜(KG)整合進大語言模型,以應對模型「幻覺」問題。儘管大模型在很多任務中表現優異,但往往缺乏準確的專業知識和最新信息。KG-Adapter基於高效微調(PEFT)方法,將知識圖譜的結構信息直接整合到語言模型中,實現了端到端的知識推理。實驗表明,即使只訓練少量參數,KG-Adapter在多任務和多個數據集上超越了之前的模型,顯著提升了知識準確性。
第三篇論文 針對HOI檢測的長尾問題,提出了「雙先驗增強解碼網絡」方法。這種雙先驗解碼網絡結合了多模態大模型的交互理解能力和檢測模型的局部特徵定位能力,大幅提高了模型在長尾類別上的識別精度,性能提升超過6個百分點。
Q:理想爲什麼要花這麼大的精力自研大模型,很多車企其實利用現有的大模型產品?
陳偉:從戰略上來看,理想公司的目標是成爲全球領先的人工智能企業,而大模型技術是AI的核心能力,關係到智能化產品體驗的關鍵。自研大模型能幫助我們在技術創新和用戶體驗上更具主動性和優勢。
從產品的角度看,理想同學旨在超越用戶期望,提供創新和高效的智能體驗。自2022年以來,大模型和智能體技術迅速發展,但也充滿了技術挑戰和不確定性。要在這些前沿領域持續提升產品力,就需要突破技術壁壘,並保持快速迭代的能力。
理想公司從戰略上選擇自研大模型,目的在於打造自主可控的全鏈路技術體系,以更高效、深度的產研協同推動體驗創新。通過自有大模型「Mind GPT」,我們能夠以用戶體驗爲中心,實現快速迭代,確保理想同學在智能體驗上的持續領先。
Q:目前理想自研的大模型規模有多大?
陳偉:Mind GPT目前主要分爲Ultra、Pro和Nano三個級別,其中Ultra千億級、Pro百億級、Nano十億級,覆蓋了端到雲、簡單到複雜的大模型需求
Q:目前大模型的迭代速度非常快,理想自研的大模型如何跟上這個速度?
陳偉:目前大模型技術迭代的很快,我們也在持續跟進並識別可行的技術,快速應用到Mind GPT研發中,同時結合我們的業務場景,我們有自己的研發節奏和主線,在模型層面,從Mind GPT 2.0開始我們已經切換到MOE架構,以此進行模型結構的創新和改進,大模型能力會放在多模態、知識增強、邏輯推理上,最近發表的論文也介紹了我們在這些方面的研究進展。
此外,我們認爲理想同學智能化水平的提升,除了在大模型能力上持續突破之外,智能體的規劃、記憶、工具、行動等技術的全面升級,才能構建自主性更強的組合智能,這個方向我們也在重點研究,研究進展也會陸續通過產品和論文的方式對外發布。
汽車的最終形態是智能體
Q:理想同學的終極目標是什麼?
陳偉:我們認爲理想同學的進化會分爲三個階段,增強人的能力,變成用戶的助手,成爲用戶的家人。成爲用戶的家人會是理想同學的終極目標,對應到研發要做的工作,要實現理想同學多模態智能體的全面突破,可以參考OpenAI對智能的分級標準,需要做到從L1的chatbot到L2 Reasoner,再到L3 Agent的技術演進。
Q:如何具體理解理想同學的三個發展階段?
陳偉: 這三個階段體現了我們不斷滿足並超越用戶需求的願景。
第一階段:增強用戶能力 在初期,我們希望理想同學幫助用戶更便捷地用車。通過視覺和語音等多模態感知能力,實現自然高效的人機交互。例如,用戶可以自由使用方言或簡單指令,理想同學通過大模型Mind GPT理解和執行車控、導航等任務,提升語音指令執行的準確性。比如,用戶可以簡單說一句「我上車開空調播放音樂,下車都關掉」,理想同學會根據情境自動拆解任務,感知到上車後啓動空調和音樂,下車後自動關閉。這種便捷的功能讓用車體驗更輕鬆高效。
第二階段:成爲用戶的助手 在Mind GPT的支持下,理想同學進化爲用戶的全能助手——包括用車助手、出行助手、娛樂助手和百科老師。作爲用車助手,它能回答關於車輛操作、狀態查詢、故障排除等問題;出行助手則可以爲家庭旅遊規劃路線,推薦餐飲娛樂,講解沿途文化;娛樂助手能聯網查詢時事熱點、明星動態,播放家庭喜愛的音樂和影視;百科老師則涵蓋廣泛的知識,從兒童的十萬個爲什麼,到成人關注的科技資訊,理想同學在持續成長的知識儲備下,爲家庭提供全方位的服務。
第三階段:成爲用戶的家人 隨着理想同學解決問題的能力增強,與用戶的信任關係逐步加深,我們希望進一步建立情感連接,最終成爲家庭的數字成員。這個過程需要從信任到情感,再到身份認同的長期構建。例如,通過聲紋識別,理想同學已能識別每位家庭成員;隨着Mind GPT的記憶功能升級,我們不斷加強理想同學的個性化服務能力。在24年的多次OTA更新中,理想同學更能基於對每位家庭成員的理解,主動提供個性化推薦。這是我們堅定發展的方向,希望理想同學獲得更多家庭的認可與喜愛。
Q:目前整個行業,在大模型落地智能座艙方面的進展如何?
陳偉: 2023年我們Mind GPT行業首發之後,2024年行業很多公司都陸續推出了接入大模型的語音助手,行業智能座艙智能化水平整體在快速提升,大模型也成爲了重要的賣點。 對我們而言,我們唯一關注的是基於Mind GPT的理想同學是否在真正解決用戶問題,是否持續做到超越用戶需求,是否在技術和體驗上是行業引領的,做好自己最重要。
Q:各家車企都在加速大模型的落地,那理想如何打造差異化呢?
陳偉:我們的差異化聚焦於技術創新,這能夠直接推動產品領先。我對差異化的理解分爲兩個層面:
第一層面,對於行業內類似的功能,我們的技術和體驗必須顯著超越。現在大模型的應用已經將AI助手從單一領域擴展到多元領域,我們的目標是通過技術突破,將體驗從「可用」提升到「好用」。
例如,在推出Mind GPT前,很多公司選擇簡單地將大模型加入現有的任務型對話系統,以快速上線,但這種方式使用時會有割裂感。我們認爲用戶應該感受到的是AI助手變得更聰明瞭,而不是需要操作切換。因此,我們選擇了更難但正確的路線——將大模型融入對話系統,讓「理想同學」一次升級,更加智能。不需要切換操作的情況下,技能從幾十個快速增加到上千個。
第二層面,快速跟進前沿技術並轉化爲產品。大模型仍處於快速發展階段。去年大模型發佈後,我們判斷「智能體」將是關鍵技術,因此大力推進相關研發。
隨着Mind GPT 2.0上線,理想同學在大模型和智能體兩方面都得到了升級,Benchmark測試中的理解、生成、知識問答等能力提升了50%以上,而推理成本沒有增加。同時,我們在智能體的規劃、記憶、工具使用和行動方面取得的階段性成果也被迅速轉化爲理想同學的功能,這帶來了更強的複雜問題規劃和外部工具連接能力,顯著提升了多輪會話的成功率。
AI時代,語言團隊變化最大
Q:大模型和端到端技術的到來,對組織架構有何影響?
陳偉:大模型時代的到來正在重塑研發模式,導致組織架構發生顯著變化。
在小模型時代,研發組織通常是基於專業技術方向設計的,例如語音、語言和視覺等。不同技術方向的模型選型各異,研發方案往往是多個小模型與業務邏輯相結合的級聯繫統,各個方向之間的差異性較大,因此,各個技術方向獨立進行研發、評估和上線。
而在大模型時代,多個研發團隊需要共同支撐Mind GPT這樣單一的大模型的研發和交付。研發方案從級聯繫統升級爲端到端的系統,研發團隊不再按照技術方向進行組織,而是根據大模型的研發環節來劃分。這包括Mind GPT的大模型預訓練、後訓練、智能體技術、評估和對齊等方向,從而重新設計研發組織架構。
Q:理想同學在車內的比重會越來越大嗎?
陳偉:會越來越大,大模型時代智能座艙的人機交互形態會從觸控式交互走向對話式交互,理想同學會成爲人機交互的主要入口,我們已有的車機應用會原子化、平台化,支撐理想同學具備更強的跨應用、高集成度的能力。
Q:多模態智能體目前發展到了哪個階段?未來還有哪些挑戰?
陳偉:我們的多模態智能體正在從Mind GPT 2.0語言智能體向Mind GPT 3.0多模態智能體演進,目前行業研發的重點還是以多模態端到端大模型爲主,多模態智能體的研究還較爲早期。
我覺得多模態智能體的突破取決於三件事: 1. 大模型邏輯推理能力的突破 2. 多模態特別是語音、視覺和語言的對齊 3. 工具類生態的建設。
Q:最後一個問題,外界對理想最大的誤解是什麼?你們會如何回應?
陳偉:其實談不上誤解,我們更希望通過產品與用戶直接對話。因爲關於理想座艙AI和自研技術的對外介紹較少,大家對理想同學的技術進展和現狀可能了解得並不充分。未來,我們會加強與行業和用戶的溝通,增進大家對理想同學技術實力的了解。
在技術研發上,我們始終圍繞「Mind GPT」大模型,致力於打造多模態智能體的全棧自研技術。通過規模化的創新與突破,我們希望理想同學不僅是用戶的助手,更成爲陪伴他們成長的家人。這種陪伴和成長,是我們研發團隊最大的成就與自豪。
參考文獻:
1、理想汽車Mind GPT論文《Q-MoE: Connector for MLLMs with Text-Driven Routing》被多媒體領域國際頂級會議ACM MM 2024錄用。
2、理想論文《KG- Adapter:Enabling Knowledge Graph Integration in Large Language Models through Parameter-Efficient Fine-Tuning》,被ACL(計算語言學協會年會,Annual Meeting of the Association for Computational Linguistics) 2024收錄。
3、理想論文《 Dual-prior Augmented Decoding Network for Long Tail Distribution in HOI Detection》,被AAAI (Association for the Advancement of Artificial Intelligence,即人工智能促進協會)收錄。