在人工智能技術的迅猛發展之下,理想汽車CEO李想在近期的公開演講中,深入介紹了公司自主研發的VLA(視覺語言行動模型)架構,這一技術被李想親切地稱為“司機大模型”。他強調,VLA不僅代表著自動駕駛技術的一次重大突破,更預示著人車交互方式的深刻變革。
李想首先對比了傳統自動駕駛技術與VLA的顯著差異。他指出,傳統技術往往受限于規則算法和端到端模型的局限性,前者像“昆蟲”一樣依賴高精地圖和預設規則,后者雖能學習人類行為,卻難以真正理解復雜的物理世界。而VLA則旨在突破這些限制,成為更加智能、靈活的“人類司機”。
為了實現這一目標,VLA采用了獨特的三階段訓練架構。在預訓練階段,它融合了3D視覺、高清2D圖像及交通語義數據,構建了對物理世界的深刻理解。在后訓練階段,它模仿駕校學習模式,通過短思維鏈快速做出決策。而在強化訓練階段,它則結合人類反饋和世界模型仿真,不斷優化駕駛行為,確保安全性、合規性和舒適性。
李想進一步透露,中國AI企業DeepSeek的開源模型對VLA的開發起到了關鍵作用。原本計劃年底自研的語言模型,因DeepSeek V3的開源而提前了9個月。作為回饋,理想汽車也將自研的操作系統“理想星環OS”開源,形成了技術生態的良性循環。通過借鑒DeepSeek的混合專家模型、自研FP8浮點運算等技術,VLA在訓練效率、車端芯片部署和成本方面均取得了顯著突破。
在談到VLA的安全性和可靠性時,李想表示,理想汽車已組建了一支100人的“超級對齊團隊”,從舒適性、合規性和安全性三個方面對VLA進行嚴格把控。團隊通過量化乘坐體驗、實時檢測交通規則遵守情況和在世界模型中預演極端場景等方式,確保VLA的駕駛行為既符合人類期望又安全可靠。
李想還將VLA定義為自動駕駛領域的“生產工具”,而非簡單的輔助功能。他預測,這一轉變將帶來用戶體驗的重構和商業模式的創新。用戶可以通過自然語言與AI司機進行交互,享受更加個性化的駕駛體驗。同時,未來或許還會推出“司機訂閱服務”,以遠低于人類司機的價格提供自動駕駛服務。這一變革將推動車企具備芯片優化、操作系統等全棧能力,提升技術競爭維度。
然而,李想也坦誠地指出了VLA面臨的挑戰和未來發展方向。他認為,Transformer架構的效率瓶頸仍需突破,極端場景仍需“規則算法+AI”混合處理。專業領域還需獨立開發Agent,通用模型難以通吃。盡管如此,他依然對VLA充滿信心,并透露2025年VLA將支撐理想汽車實現城市NOA全場景覆蓋。
在李想看來,VLA不僅是一次技術上的飛躍,更是交通領域生產力革命的開始。隨著AI技術的不斷發展,人類與機器協同駕駛的時代或許已經悄然來臨。從“開車”到“與AI司機共處”,這一轉變將深刻改變我們的生活方式和交通出行方式。