理想汽車創(chuàng)始人李想近期分享了公司在自動(dòng)駕駛領(lǐng)域的最新進(jìn)展,特別是關(guān)于VLA(視覺語言行動(dòng)模型)的應(yīng)用。他形象地比喻,VLA對于理想汽車而言,就像是一個(gè)活生生的“司機(jī)大模型”,其運(yùn)作方式正日益接近人類司機(jī)的思維與操作模式。
李想透露,理想汽車在智能駕駛技術(shù)的探索之路上,已經(jīng)歷了三個(gè)關(guān)鍵階段。首個(gè)階段始于2021年,當(dāng)時(shí)主要依賴于機(jī)器學(xué)習(xí)來感知環(huán)境,并結(jié)合后端的一系列規(guī)則算法來完成諸如規(guī)劃、控制及執(zhí)行等任務(wù)。這一階段的技術(shù)發(fā)展是分步驟、模塊化的,雖然有效,但距離“類人”的智能駕駛?cè)杂休^大差距。
緊接著,第二個(gè)階段在2023年啟動(dòng)研究,并于2024年正式推出了“端到端”系統(tǒng)。這一階段的重大突破在于,系統(tǒng)不再僅僅依賴單個(gè)模塊的獨(dú)立判斷,而是將整個(gè)駕駛過程整合得更加連貫和統(tǒng)一,從而能夠更高效地應(yīng)對復(fù)雜路況,展現(xiàn)出更加自然的駕駛行為。
目前,理想汽車正全力推進(jìn)第三階段的發(fā)展,即VLA模型的應(yīng)用。這一模型標(biāo)志著智能駕駛技術(shù)邁入了一個(gè)嶄新的高度。與以往的技術(shù)相比,VLA不僅僅停留在圖像識別的層面,而是能夠像人類一樣,通過3D視覺與2D圖像的結(jié)合,來“理解”真實(shí)世界的物理結(jié)構(gòu)。它不僅能夠“看到”道路和車輛周圍的情況,還能“理解”導(dǎo)航軟件的運(yùn)行邏輯,這是傳統(tǒng)的視覺語言模型VLM所無法比擬的。VLM只能識別圖片內(nèi)容,而無法真正理解場景背后的深層邏輯。
VLA模型的核心優(yōu)勢在于其擁有類似人類的“大腦系統(tǒng)”。它不僅能夠觀察外部環(huán)境,還能理解和推理出正在發(fā)生的事情。VLA具備自己的“語言”和“思維鏈”,能夠進(jìn)行多步驟的推理,從而做出更加符合實(shí)際情境的決策。這種能力使得VLA在面對突發(fā)情況或復(fù)雜路況時(shí),能夠像經(jīng)驗(yàn)豐富的老司機(jī)一樣迅速反應(yīng),并采取恰當(dāng)?shù)牟僮鳌?/p>