近日,一項由清華大學、麥吉爾大學及威斯康星大學麥迪遜分校攜手完成的開創(chuàng)性研究成果,在計算機視覺領域的頂級平臺arXiv上正式發(fā)布,論文編號為arXiv:2506.24044v1。該研究由清華大學的江昆教授與麥吉爾大學的孫立軍教授共同領導,詳盡闡述了自動駕駛領域的新技術路徑——視覺-語言-行動模型(VLA4AD),并通過一份19頁的詳盡報告,為業(yè)界及學術界提供了全面的技術脈絡圖。
自動駕駛技術的發(fā)展,在過去幾十年里一直遵循著模塊化的思路,工程師們將復雜的駕駛任務拆解為感知、預測、規(guī)劃與控制等多個獨立環(huán)節(jié)。盡管這種分工明確的方法在一定程度上提升了效率,但其固有的“多米諾骨牌”效應卻使得任何一個環(huán)節(jié)的失誤都可能引發(fā)整個系統(tǒng)的崩潰。更棘手的是,這類系統(tǒng)往往難以應對那些未被程序員預先考慮到的特殊情境。
隨著大型語言模型與視覺模型的迅速崛起,科研人員開始探索一種全新的自動駕駛范式:能否讓自動駕駛汽車像人類一樣,綜合運用視覺、語言與行動能力來應對復雜的駕駛場景?這正是VLA4AD模型的核心理念所在。它摒棄了傳統(tǒng)模塊化的設計思路,旨在構建一個統(tǒng)一的框架,使汽車能夠自主理解路況、解析指令、進行邏輯推理,并最終做出駕駛決策。
研究團隊通過深入分析發(fā)現(xiàn),VLA4AD領域的發(fā)展經歷了從語言模型作為“解說員”到“中間翻譯”,再到一體化系統(tǒng),直至加入長期推理與記憶能力的四個階段。在技術架構上,這類系統(tǒng)宛如一個高度智能化的司機大腦,由視覺編碼器、語言處理器與行動解碼器三大核心部分組成。
視覺編碼器如同司機的“眼睛”,不僅能夠處理常規(guī)的攝像頭畫面,還能整合激光雷達、雷達等多種傳感器信息,形成對周圍環(huán)境的全方位理解。語言處理器則基于預訓練的大型語言模型,能夠解析各種形式的指令與查詢,從簡單的轉向指令到復雜的超車策略都能應對自如。而行動解碼器則相當于司機的“手腳”,將前兩部分的信息轉化為具體的駕駛動作,如方向盤轉角、油門剎車控制等。
VLA4AD技術的輸出方式同樣豐富多樣,不再局限于簡單的控制信號。部分系統(tǒng)會提供詳細的駕駛軌跡規(guī)劃,而有些則直接輸出底層的控制指令,還有些更高級的系統(tǒng)甚至能夠同時輸出駕駛動作與自然語言解釋,讓乘客能夠直觀了解汽車的“思考”過程。
然而,VLA4AD領域的發(fā)展并非一帆風順。早期的嘗試主要集中在讓語言模型扮演“旁觀者”的角色,如DriveGPT-4系統(tǒng)能夠分析路況照片并給出文字描述性的行動建議,但這些建議往往過于模糊,難以轉化為精確的駕駛指令。處理每一幀圖像所需的大量計算資源也限制了系統(tǒng)的實時性能。
隨著技術的不斷進步,研究人員開始嘗試采用模塊化的方法,將語言模型融入系統(tǒng)之中,如OpenDriveVLA系統(tǒng)能夠根據(jù)路線指令生成中間指令,再由專門的軌跡生成器轉換為具體的行駛路徑。雖然這種方法提高了系統(tǒng)的可解釋性與靈活性,但仍存在模塊間信息傳遞損失的問題。
真正的突破出現(xiàn)在端到端統(tǒng)一模型的發(fā)展階段。這類系統(tǒng)能夠直接從原始的傳感器數(shù)據(jù)跳躍到最終的駕駛動作,如EMMA系統(tǒng)在Waymo的大規(guī)模駕駛數(shù)據(jù)上進行訓練,能夠同時處理目標檢測與運動規(guī)劃任務,展現(xiàn)出超越傳統(tǒng)分離式系統(tǒng)的性能。而SimLingo和CarLLaVA等系統(tǒng)則進一步引入了“動作想象”技術,讓模型能夠在腦海中預演不同駕駛策略的后果,從而選擇最優(yōu)方案。
為了支撐這些技術的發(fā)展,研究社區(qū)構建了多個數(shù)據(jù)集和評估體系。BDD-X數(shù)據(jù)集提供了帶有人類解釋的真實駕駛場景,成為訓練可解釋AI系統(tǒng)的重要資源。nuScenes數(shù)據(jù)集雖然最初專注于感知任務,但其豐富的多傳感器數(shù)據(jù)使其成為測試VLA系統(tǒng)的重要平臺。Bench2Drive則提供了包含44種不同駕駛場景的閉環(huán)測試環(huán)境,能夠全面評估系統(tǒng)的駕駛能力。
在訓練方法上,當前主流的做法是采用多階段漸進式訓練。首先是預訓練階段,在大規(guī)模的圖像-文本數(shù)據(jù)上建立基礎的視覺-語言理解能力。然后是模態(tài)對齊階段,通過配對的圖像-文本-動作數(shù)據(jù)進行微調,使模型學會將視覺信息、語言指令與駕駛動作關聯(lián)起來。接下來是場景特化階段,在特定的駕駛場景和指令上進行針對性訓練,并可能加入強化學習來優(yōu)化安全性和規(guī)則遵循。最后是模型壓縮階段,通過參數(shù)高效的方法減少計算需求,使模型能夠在車載硬件上實時運行。
評估這類系統(tǒng)的挑戰(zhàn)在于需要同時考慮駕駛能力和語言能力兩個維度。在駕駛方面,研究人員關注閉環(huán)成功率、交通違規(guī)次數(shù)、碰撞率等傳統(tǒng)指標,同時也測試系統(tǒng)在惡劣天氣、未見路況等情況下的泛化能力。在語言方面,則需要評估指令理解的準確性、解釋的合理性、多輪對話的一致性等。
盡管取得了顯著進展,但VLA4AD領域仍面臨諸多挑戰(zhàn)。魯棒性和可靠性問題尤為突出,語言模型有時會產生誤解或“幻覺”,可能導致系統(tǒng)對危險的錯誤感知。實時性能也是一個關鍵難題,運行包含數(shù)十億參數(shù)的模型對計算硬件提出了極高要求。數(shù)據(jù)標注瓶頸、多模態(tài)融合難題以及多智能體協(xié)調挑戰(zhàn)也亟待解決。
展望未來,科研人員認為VLA4AD領域有幾個重要的發(fā)展方向。首先是構建專門針對駕駛任務的基礎模型,通過自監(jiān)督預訓練適應各種下游任務。神經符號安全內核的發(fā)展也很有前景,可以在保持靈活性的同時提供安全保障。車隊級持續(xù)學習、標準化的交通語言、跨模態(tài)社交智能以及檢索增強規(guī)劃等方向也展現(xiàn)出巨大潛力。
這項研究不僅梳理了當前的技術現(xiàn)狀,更為未來的研究指明了方向。研究團隊呼吁建立統(tǒng)一的評估協(xié)議和開源工具包,促進不同研究團隊間的合作與比較。他們相信,隨著計算能力的提升、數(shù)據(jù)的積累和算法的改進,我們有望在不久的將來體驗到這種會說話、能推理的智能汽車。