在近期舉辦的“理想AI Talk第二季”活動中,理想汽車董事長兼CEO李想深入探討了人工智能的發展現狀及其未來趨勢,特別強調了人工智能作為生產工具的重要性。李想認為,只有當AI技術真正轉化為生產工具時,才能迎來其真正的爆發期。他比喻道,就像人類會雇傭司機一樣,未來人工智能技術也將承擔起類似的職責,成為不可或缺的生產工具。
李想將AI工具劃分為三個層次:信息工具、輔助工具和生產工具。他指出,當前大多數人僅將AI作為信息工具使用,但這類工具往往伴隨著大量無效信息和結果,僅具有有限的參考價值。當AI進化為輔助工具時,能夠顯著提升效率,如當前的輔助駕駛技術,但仍需人類參與。然而,李想展望的未來是AI成為生產工具,能夠獨立完成專業任務,極大提高效率和質量。
在談到理想汽車的AI發展時,李想特別提到了VLA(Vision-Language-Action Model,視覺語言行動模型)技術。他強調,VLA技術將使AI真正成為司機,成為交通領域的專業生產工具。對于理想汽車而言,未來的VLA就像是一個與人類司機無異的工作伙伴。
李想分享了VLA技術發展的三個階段,分別對應理想汽車輔助駕駛的過去、現在和未來。從依賴規則算法和高精地圖的輔助駕駛,到端到端+VLM(Vision Language Model,視覺語言模型)的輔助駕駛,再到VLA開啟的“人類智能”階段,每一步都是技術的巨大飛躍。VLA能夠通過3D和2D視覺的組合,完整感知物理世界,并擁有完整的腦系統,具備語言和CoT(Chain of Thought,思維鏈)推理能力。
VLA的訓練過程被李想比作人類學習駕駛技能的過程,包括預訓練、后訓練和強化訓練三個環節。預訓練相當于人類學習物理世界和交通領域的常識;后訓練類似于人類去駕校學習開車;強化訓練則如同人類在社會中實際開車練習,旨在使VLA司機大模型更加安全、舒適,與人類價值觀保持一致,甚至超越人類的駕駛水平。
李想還透露,VLA司機大模型將以“司機Agent(智能體)”的形式呈現,用戶可以通過自然語言與司機Agent溝通,就像與人類司機交流一樣。簡單指令由端側的VLA直接處理,復雜指令則先由云端的VL基座模型解析后再交由VLA處理。
李想還強調了VLA司機大模型在解決安全性和模型黑盒問題上的努力。理想汽車在強化訓練環節投入了大量資源,并組建了超過100人的超級對齊團隊,以確保司機Agent具備高度的職業素養。李想表示,面對AI的發展,所有的人性都應被保留,因為一切人性都是文化、生命、性格和能力的特質,也是人類真正的生命力所在。