在人工智能領域,聊天機器人如Gemini和ChatGPT常被視作數字世界的交互先鋒,然而,生成式AI正悄然在實體機器人技術中扮演核心角色。近期,谷歌DeepMind宣布推出全新設備端VLA(視覺語言動作)模型,專為機器人控制設計,這一版本實現了完全的本地自主運行,無需云端支持。
據谷歌DeepMind機器人部門主管Carolina Parada介紹,這款AI機器人技術能顯著提升機器人在復雜環境中的可靠性,是谷歌首個面向開發者調優的機器人模型版本。Parada強調,機器人不僅存在于物理世界,還需與環境互動,這對AI提出了獨特挑戰。傳統強化學習方法在訓練機器人動作時效率低下,而生成式AI則展現出更強的泛化能力。
這款VLA模型利用了Gemini的多模態理解能力,使其不僅能執行文本生成、詩歌創作、文章總結等任務,還能編寫代碼、生成圖像,更重要的是,它能生成機器人的動作指令。Parada解釋說:“Gemini的多功能性讓它成為了一個全能的助手。”
與此前依賴云端輔助的Gemini Robotics版本相比,新設備端模型在性能上僅略有遜色,但在實際應用中已足夠強大。許多任務無需調整即可直接使用。開發者在與這些機器人互動時發現,它們在理解新情境方面展現出了驚人的能力。為了鼓勵開發者進一步探索,谷歌提供了完整的SDK,使研究者僅需50至100次演示就能讓VLA適應新任務。
在AI機器人技術中,“演示”意味著通過遠程操作機器人完成任務,以此調優模型。雖然合成數據在訓練過程中占有重要地位,但真實數據對于最復雜、最精細的行為仍是不可或缺的。Parada指出:“對于最精細的動作,我們仍然需要真實數據。”不過,仿真技術也在這一過程中發揮了重要作用。
盡管設備端VLA模型在處理簡單動作,如系鞋帶或折疊衣物時表現出色,但對于更復雜的多步驟任務,如制作三明治,它可能需要更強大的模型來支持。然而,對于云連接不穩定或隱私敏感的環境,如醫療設施,這款設備端模型尤為適用。
安全性始終是AI系統,尤其是實體機器人的一大關注點。為確保Gemini Robotics的行為安全,谷歌采用了多層次的安全機制。Parada解釋說,系統首先通過Gemini Robotics連接到能夠推理安全行為的模型,然后與生成動作選項的VLA對話,最終由低級控制器執行動作,這些控制器通常包含安全關鍵組件,如力量限制和速度控制。
雖然新的設備端模型本身不包含完整的安全機制,但谷歌建議開發者遵循Gemini團隊的做法,將系統連接到包含安全層的Gemini Live API,并實施低級控制器進行關鍵安全檢查。有興趣測試Gemini Robotics設備端版本的開發者,可以申請加入谷歌的可信測試計劃。
在過去三年里,機器人技術取得了顯著進展,而此次發布的Gemini Robotics僅是基于Gemini 2.0的版本。Parada透露,Gemini Robotics團隊通常落后于Gemini開發一個版本,而Gemini 2.5在聊天機器人功能方面已有大幅提升,未來機器人技術或許也將迎來類似飛躍。