近期,谷歌在機器人技術領域邁出了重要一步,推出了Gemini Robotics On-Device模型,這一升級版是在其三月發布的“視覺語言動作”(VLA)模型基礎上進一步優化而來。據谷歌官方介紹,該模型專為在機器人設備上本地運行而設計,代表了他們目前最頂尖的VLA技術。
谷歌DeepMind的高級總監及機器人項目主管強調,Gemini Robotics On-Device模型無需依賴數據網絡,這對延遲敏感的應用來說是一大福音。它確保了即便在網絡不穩定或無網絡的環境中,機器人也能保持穩定的運行。這一特性使得該模型在多種應用場景中展現出極高的靈活性和可靠性。
Gemini Robotics On-Device模型是專為雙臂機器人設計的,旨在提升機器人應對復雜任務的靈巧性和適應能力。在之前的演示中,搭載了該本地模型的機器人展示了諸如拉開拉鏈和折疊衣物等基本動作的出色執行能力。谷歌表示,雖然該模型最初是為ALOHA機器人訓練的,但經過調整,現已成功應用于雙臂Franka FR3機器人和Apollo人形機器人。
為了進一步推動Gemini Robotics的發展,谷歌DeepMind還發布了配套的SDK。開發人員可以在MuJoCo高級物理模擬器上利用這些模型,通過向機器人展示50到100個任務演示來訓練它們完成任務。這種訓練方式不僅提高了機器人的學習效率,還增強了其在實際應用中的表現。
與單純的大語言模型相比,機器人AI面臨更多挑戰。機器人不僅存在于物理世界中,還會改變其環境。谷歌DeepMind機器人技術負責人指出,Gemini不僅能夠生成文本、寫詩、總結文章甚至編寫代碼,現在還能生成機器人動作。這意味著谷歌的機器人模型已經能夠通過大數據訓練來掌握各種動作,在快速迭代中應對物理世界中的各種問題。
然而,安全性是機器人AI發展中不可忽視的問題。與對話型AI相比,機器人AI更需注重安全,以避免出現類似“終結者”這樣的恐怖場景。為了保障Gemini Robotics的安全,谷歌采用了多層限制的方法。具體來說,機器人由一個底層VLA模型控制,而在其之上還有一個上級VLA模型,該模型通過推理來判斷哪些指令是安全的。這種“AI管理AI”的方式為機器人的安全運行提供了有力保障。
隨著谷歌在機器人技術領域的不斷突破,越來越多的公司也開始關注這一新賽道。包括Nvidia在內的許多企業都在秘密研發自己的機器人項目。可以預見,未來將有更多企業在這一領域展開競爭,共同推動機器人技術的發展和創新。