谷歌近期在機器人技術領域邁出了重要一步,推出了Gemini Robotics On-Device模型,這是其“視覺語言動作”(VLA)模型的升級版。據谷歌官方介紹,這款模型代表了他們目前最頂尖的VLA技術,特別之處在于它經過優化后能夠在機器人設備上實現本地運行。
DeepMind的高級總監及機器人項目主管透露,Gemini Robotics On-Device的一大優勢在于其獨立性,無需依賴數據網絡即可運作。這對于對延遲敏感的應用場景尤為關鍵,確保了即便在網絡不穩定或完全無網絡連接的環境中,機器人也能保持穩定的工作狀態。
谷歌強調,Gemini Robotics On-Device是在今年3月發布的Gemini Robotics基礎上進行升級而來,專為雙臂機器人設計。其目標是提升機器人在處理復雜任務時的靈活性和適應能力。在一次演示活動中,谷歌展示了裝備該本地模型的機器人,它們能夠輕松完成如拉開拉鏈和折疊衣物等精細動作。
雖然該模型最初是為ALOHA機器人開發的,但谷歌隨后對其進行了調整,使其能夠兼容雙臂Franka FR3機器人和Apollo人形機器人,進一步拓寬了應用范圍。
谷歌DeepMind還同步發布了Gemini Robotics SDK,為開發者提供了在MuJoCo高級物理模擬器上利用這些模型的機會。通過向機器人展示50至100個任務演示,開發者可以訓練機器人完成特定任務。與單純的大語言模型相比,這些機器人AI面臨的挑戰更為復雜,因為它們不僅存在于物理世界中,還會與環境產生互動。
DeepMind的機器人技術負責人表示,Gemini不僅能生成文本、寫詩、總結文章甚至編寫代碼,現在還能生成機器人動作。這意味著,通過大數據訓練,谷歌的機器人模型已經具備了應對各種物理世界問題的能力,并在快速迭代中不斷進步。
安全性是這類機器人AI必須面對的另一大挑戰。相較于對話型AI,機器人AI的安全問題更為緊迫,因為“終結者”般的恐怖場景并非完全不可能成為現實。為了保障Gemini Robotics的安全,谷歌采取了多層限制措施。具體而言,機器人的控制由底層VLA模型負責,而該模型之上還有一個上級VLA模型,通過推理方案來判斷指令的安全性。這種“AI管理AI”的機制,為機器人的安全運行提供了有力保障。
隨著谷歌在機器人AI領域的突破,這一新賽道上的競爭也日益激烈。包括Nvidia在內的多家公司都在秘密研發自己的機器人項目,國內同樣有眾多企業在這一領域默默耕耘。一場全新的AI大戰,正悄然拉開序幕。