在具身智能領域,視覺-語言-動作模型(VLA)作為一種新興范式,正逐漸嶄露頭角。該模型通過整合視覺信息、語言指令和行動決策,顯著提升了機器人對復雜環境的理解和適應能力,為機器人從單一任務執行向多樣化場景自主決策的轉變提供了強大支持。VLA因此成為學術界和工業界的研究熱點。
近期,雷峰網與AI科技評論GAIR Live品牌聯合舉辦了一場線上圓桌沙龍,主題為“具身智能之VLA的實踐與突破”。此次沙龍由北京大學計算機學院助理教授仉尚航主持,并邀請了清華大學交叉信息院的助理教授高陽、趙行,以及北京大學人工智能研究院的助理教授楊耀東,共同探討VLA的最新進展和未來方向。
沙龍上,仉尚航首先引導討論了VLA的定義、起源及其與其他相關模型的區別。隨后,各位嘉賓深入分析了VLA的技術路線和新成果,探討了不同技術路線的優缺點,并圍繞機器人常見任務,剖析了核心技術瓶頸和主流輸出范式。還討論了強化學習與VLA的結合、泛化能力的提升、異構數據的利用以及協同訓練等議題。
高陽指出,推理與數據是當前VLA面臨的兩大核心挑戰。盡管已有不少研究探索了VLA與推理的結合路徑,但尚未找到最優方案。同時,VLA的數據量級遠不及訓練大語言模型(VLM)的數據,且多樣性嚴重不足,這限制了模型的能力提升。趙行表示,VLA在實際應用中的系統運行頻率單一化問題,以及高低頻自適應閉環系統的設計,仍是未解決的課題。楊耀東則提到,當前VLA訓練存在割裂問題,大腦(VLM)和小腦(底層策略模型)多分開訓練,缺乏端到端訓練及類似人類大小腦的雙向交互。
在討論VLA的前世今生時,高陽回顧了VLA的起源和發展,指出其源于大模型的技術變革。楊耀東則從大模型視角和行為動作決策控制視角闡述了VLA的重要性。趙行則分享了GPT-4發布對其研究方向的啟發,以及VLA在解決長尾問題上的潛力。
對于VLA的技術路線和最新進展,高陽提到了架構與數據兩方面的進展,并強調了數據多樣性的重要性。楊耀東從模型架構角度分類了VLA,并探討了行為動作空間的表征方式。趙行則關注雙系統設計,并介紹了不同團隊在VLA方面的研究成果。
在探討VLA的核心技術瓶頸時,高陽強調推理和數據的挑戰,趙行提到高低頻自適應閉環系統的設計難題,楊耀東則指出端到端訓練和測試時計算閉環的缺乏。對于強化學習與VLA的結合,嘉賓們一致認為這是VLA發展的必由之路,但仍面臨許多未解問題。
在數據使用方面,高陽強調數據的多樣性比絕對數量更重要,并介紹了千尋智能如何利用互聯網數據優化VLA模型。楊耀東則提出,互聯網數據雖然豐富,但信噪比低,且對具體任務的適用性有限。趙行則認為,仿真數據可以作為真實數據的補充,通過技術手段縮小sim to real gap。
對于VLA的泛化能力,嘉賓們提出了多種提升策略,包括利用大量互聯網數據進行聯合訓練、創新模型架構、實現具身認知等。在探討VLA與本體構型設計的關系時,嘉賓們認為VLA模型與機器人本體沒有必然綁定,但硬件局限和VLA能力需相互匹配。
最后,關于VLA是否能完成長程任務,嘉賓們持不同觀點。高陽認為,先通過VLM拆解任務再由VLA執行是更實際的方法。楊耀東則強調VLA具備完成長程任務的潛力,并指出需賦予模型推理能力和測試時計算閉環。趙行則提出,需先定義和評測推理能力,再探索VLA在長程任務中的應用。
在落地場景方面,嘉賓們一致認為工業場景是VLA最先落地的選擇,但也提到了商業領域和ToBC模式等新場景的可能性。
此次圓桌沙龍為觀眾帶來了VLA領域的深入洞察和前沿思考,對于推動VLA技術的發展和應用具有重要意義。