近日,谷歌旗下DeepMind團隊公布了一項技術創新,推出了一款名為Gemini Robotics On-Device的本地化機器人人工智能模型。這款模型基于前沿的視覺-語言-動作(VLA)架構,能夠在無需云端支持的情況下,實現對實體機器人的直接控制。
Gemini Robotics On-Device模型的核心優勢顯著。首先,它能夠在機器人設備上獨立運行,提供低延遲的響應能力,這對于網絡條件不穩定的環境,如醫療設施內,尤為重要。其次,該模型能夠執行高精度操作任務,例如打開包袋的拉鏈、疊放衣物以及系鞋帶等,展示了其強大的應用潛力。它還支持雙機械臂設計,能夠適配包括ALOHA、Franka FR3及Apollo人形機器人在內的多種平臺。
為了促進開發者的應用與創新,DeepMind還提供了Gemini Robotics SDK工具包。開發者僅需通過50至100次的任務演示,即可輕松定制新功能。同時,該模型還支持MuJoCo物理模擬器測試,為開發者提供了一個高效、安全的測試環境。
在安全保障方面,Gemini Robotics On-Device模型同樣表現出色。它采用Live API實施語義安全檢測,確保指令的準確性和安全性。底層安全控制器負責管理動作力度與速度,有效防止意外情況的發生。DeepMind還開放了語義安全基準測試框架,為行業提供了評估和提升機器人安全性的新途徑。
項目負責人Carolina Parada介紹稱:“Gemini Robotics On-Device模型借鑒了Gemini多模態世界理解能力,就像Gemini能夠生成文本、代碼和圖像一樣,它也能夠生成機器人的動作指令?!边@一創新不僅推動了機器人技術的發展,也為人工智能在實體機器人領域的應用開辟了新道路。