在科技日新月異的今天,人工智能(AI)正以前所未有的速度重塑各行各業,而汽車行業無疑是這場變革中的前沿陣地。2022年,ChatGPT的橫空出世不僅掀起了全球科技浪潮,更為AI技術的未來發展指明了方向。三年后,這股AI革命浪潮已深刻影響了汽車行業,其中,一項名為VLA(Vision-Language-Action)的技術成為了智能汽車領域的新寵。
VLA,即視覺-語言-行為三位一體的大模型架構,被視為當下“端到端”方案的進階版。它將空間智能、語言智能和行為智能完美融合于一個模型之中,賦予了汽車更高的場景推理能力與泛化能力。簡而言之,VLA技術的加持讓汽車不再僅僅是駕駛工具,而是成為了一個能與用戶溝通、理解用戶意圖的智能體。通過語言模型和邏輯推理的結合,它成為了一個聽得懂、看得見、找得到的“司機Agent”。
在這場靜悄悄但深刻的范式轉移中,自動駕駛技術正經歷著從規則驅動向學習驅動的轉變,從分布式感知-決策-控制向端到端一體化架構的演進,再到今天VLA的多模態融合統一建模。技術不再是簡單的模塊疊加,而是要求AI真正“行動起來”,成為像人類司機一樣理解環境、做出判斷并立即執行的整體智能體。
在這場技術變革中,理想汽車無疑走在了中國車企的前列。在2025理想AI Talk第二季活動上,理想汽車董事長兼CEO李想聚焦VLA司機大模型,不僅展示了“司機Agent”的實力,更通過他對AI與人性的深度思考,描繪出了智能汽車發展的新藍圖。李想認為,AI不應僅僅是“汽車智能化”,而應真正實現“人工智能的汽車化”。
理想汽車的AI之路并非一蹴而就。從NOA到VLA,理想汽車經歷了充足的技術積累與三段跳式的進化。從規則算法到無圖NOA,再到端到端+VLM,最終邁向VLA司機大模型,每一步都至關重要,且每一階段都是不可跨越的。無圖NOA階段實現了對先驗信息依賴的突破,讓車輛能夠在沒有高精度地圖的情況下依然保持良好的駕駛表現;而端到端+VLM功能則標志著從規則驅動向數據驅動的根本轉變。
在理想最新公布的demo視頻中,“司機Agent”展示了其強大的智能輔助駕駛能力。無論是通過高速收費站時的“走人工”指令,還是日常駕駛中的“前方掉頭”和“靠邊停車”指令,系統都能迅速響應并執行。這一技術的實現,離不開VLA三位一體架構的強大支撐。
VLA技術的成功,不僅在于其將空間智能、語言智能和行為智能完美融合,更在于其對中國本土AI市場崛起的貢獻。正如DeepSeek在大模型領域的發展路徑所示,從基礎算法研究到數據收集清洗、模型架構優化再到最終產品落地,每一步都不可或缺。理想汽車的VLA技術同樣經歷了這樣的過程,才最終實現了從“輔助”到“智能體”的躍遷。
李想在活動上強調,如果規則算法都做不好,根本無法進行端到端的研究;如果端到端沒有達到極致水平,VLA的訓練也無從談起。這一觀點再次證明了技術進步的連貫性和必要性。VLA技術的突破,不僅拉高了智能輔助駕駛系統的上限,更在汽車座艙和車輛駕駛層面進行了完美結合。
在李想看來,智能輔助駕駛的發展可以分為三個階段:昆蟲動物智能、哺乳動物智能和人類智能。VLA技術正處于人類智能階段,它利用3D視覺和2D組合構建更真實的物理世界,擁有自己的腦系統、理解物理世界的能力以及語言和思維鏈系統。這一技術的實現,標志著智能汽車正朝著“移動智能空間”的方向進化。
從人工智能行業的角度來看,VLA技術是“機器人模型”的一種,是Physical AI的原型。在ChatGPT等數字智能代表主導的軟件智能浪潮之后,AI的下一個風口無疑是物理智能。汽車作為最復雜的物理空間智能終端,成為了理想汽車的主要切入口。一旦VLA模式在車上跑通,空間智能+語言智能+行為智能三者的融合,將為其他領域的機器人模型打下范式基礎。
理想汽車的選擇并非偶然。OpenAI、DeepSeek等大模型公司雖強,但他們并未真正涉足汽車領域的空間智能與行為建模,更沒有語料、數據和場景去覆蓋家庭用戶與真實路況的多樣性。正因如此,理想汽車選擇了自己下場,打造自己的基座模型,一步步打磨空間智能和行為智能部分,嘗試建立閉環能力的雛形。
隨著VLA技術的不斷發展,智能汽車正逐步從“移動交通工具”進化為“移動智能空間”,成為AI與人的共生載體。這場變革不僅是理想汽車的突破,更是AI進化的必然結果。未來的智能汽車,將在VLA的驅動下,開啟一個全新的智能出行時代。