谷歌在機器人技術領域的探索再次邁出重要一步,近日宣布推出Gemini Robotics On-Device模型,這一升級版模型標志著谷歌在“視覺語言動作”(VLA)技術上的又一突破。
據谷歌官方介紹,Gemini Robotics On-Device是迄今為止他們最強大的VLA模型,經過深度優化,實現了在機器人設備上的本地運行。這一特性使得該模型能夠在不依賴外部數據網絡的情況下穩定運行,對于延遲敏感的應用場景尤為關鍵,特別是在網絡不穩定或無網絡連接的環境中。
谷歌DeepMind的高級總監兼機器人主管表示,Gemini Robotics On-Device專為雙臂機器人設計,旨在提升機器人在復雜任務中的靈巧性和適應性。這一模型是在今年3月推出的Gemini Robotics基礎上升級而來,通過大數據訓練,機器人能夠執行更加精細的動作。
在一次演示中,谷歌團隊展示了搭載這一本地模型的機器人,它們能夠輕松完成拉開拉鏈、折疊衣物等基本任務,展現了模型在實際應用中的潛力。
谷歌還發布了Gemini Robotics SDK,為開發人員提供了在MuJoCo高級物理模擬器上使用這些模型的平臺。開發人員可以通過向機器人展示50到100個任務演示來訓練它們,進一步提升機器人的任務執行能力。
值得注意的是,與單純的大語言模型相比,機器人AI面臨著更多的挑戰。機器人不僅存在于物理世界中,還會改變其環境,因此安全問題尤為重要。谷歌為保障Gemini Robotics的安全,采用了多層限制的策略。控制機器人的底層VLA模型之上,還有一個上級VLA模型,通過推理模型來判斷指令的安全性,實現了“AI管理AI”的安全機制。
隨著谷歌在機器人技術領域的不斷深耕,越來越多的公司也開始關注這一新賽道。包括Nvidia在內的眾多企業都在秘密研發自己的機器人項目,預示著未來機器人AI領域的競爭將更加激烈。在國內,同樣有眾多企業在這一領域默默耕耘,期待他們在未來的AI大戰中嶄露頭角。