谷歌DeepMind最近通過官方渠道宣布,推出了一款名為Gemini Robotics On-Device的本地化機器人人工智能模型。這款模型基于視覺-語言-動作(VLA)一體化架構設計,實現了在沒有云端支持的情況下對實體機器人的精確操控。
Gemini Robotics On-Device模型的最大創新之處在于其完全本地化運行的特性,這一改變賦予了機器人低延遲響應的能力。尤其在一些網絡環境不穩定或要求即時響應的場所,如醫療設施,該模型展現出了巨大的應用潛力。
在操作精度層面,該模型的表現同樣令人矚目。它能夠完成諸如拉開包袋拉鏈、折疊衣物、系鞋帶等一系列高精度任務。模型配備的雙機械臂設計,目前已適配ALOHA、Franka FR3以及Apollo人形機器人平臺,進一步擴展了其應用場景。
為了幫助開發者更輕松地利用這一技術,谷歌提供了全面的Gemini Robotics SDK工具包。開發者僅需通過50至100次的任務演示,即可為機器人定制新功能。系統還支持MuJoCo物理模擬器,允許開發者在部署前進行模擬測試,降低了開發風險。
安全性方面,Gemini Robotics On-Device模型也建立了完善的安全機制。通過Live API進行語義安全檢測,確保機器人行為符合規范。同時,底層安全控制器對動作的力度和速度進行精確管理,有效防止了意外傷害的發生。
項目負責人Carolina Parada介紹道:“這款系統充分利用了Gemini的多模態理解能力,就像Gemini能夠生成文本、代碼和圖像一樣,現在它也能生成精確的機器人動作,實現了從認知到動作的全面智能化。”
目前,該模型尚處于測試階段,僅向參與可信測試計劃的開發者開放。值得注意的是,這款模型基于Gemini2.0架構開發,與谷歌最新的Gemini2.5版本相比,存在一定的技術差距。