谷歌旗下DeepMind團隊近日推出針對機器人與具身智能領域的Gemini Robotics 1.5系列模型,通過賦予機器人跨形態學習能力與深度推理機制,推動其向具備自主決策能力的智能體邁進。該系列包含Gemini Robotics 1.5與Gemini Robotics-ER 1.5兩個核心模型,分別聚焦動作執行與環境推理,形成協同工作的智能框架。
作為視覺-語言-動作模型,Gemini Robotics 1.5可將視覺感知與語言指令轉化為精準的機械運動。其升級后的版本新增"思考后行動"能力,能在執行前通過自然語言生成內部推理序列。例如在垃圾分類任務中,機器人通過查閱規則并觀察物品特征,將物品準確分配至堆肥、回收或垃圾容器;在行李打包場景中,機器人不僅完成指令要求,還主動查詢目的地天氣并添加雨傘,展現多步驟任務規劃能力。
另一核心模型Gemini Robotics-ER 1.5則專注于物理世界推理,具備頂尖的空間理解與邏輯決策能力。該模型支持自然語言交互,可調用谷歌搜索等數字工具獲取實時信息,并能評估任務進度與成功率。在協同工作中,ER 1.5負責生成分步自然語言指令,由Gemini Robotics 1.5執行具體動作,同時后者還能通過語言反饋反思行為,提升復雜語義任務的處理能力。
跨具身學習能力是該系列的突破性創新。傳統機器人模型需針對不同形態單獨調整,而Gemini Robotics 1.5可將單個機器人習得的技能遷移至其他形態設備。實驗顯示,從未接觸過衣柜場景的Apollo機器人,通過遷移學習成功完成開門、取衣等動作,證明模型對不同感知能力與自由度設備的泛化適配性。這種能力將加速物流、零售等領域機器人的研發進程,實現跨場景知識共享。
在技術實現層面,兩個模型均基于Gemini核心架構,通過針對性數據集微調優化各自功能。學術測試表明,Gemini Robotics-ER 1.5在物體檢測、軌跡預測等基準中達到領先水平。其支持的任務類型涵蓋狀態估計、分割掩碼生成、指向識別等復雜操作,并能實時評估任務完成度。
實際應用場景中,該系列模型已展現出處理鏈式任務的能力。在水果分類實驗中,機器人通過顏色感知與環境分析完成精準分揀;在洗衣分類任務中,機器人可動態調整機械臂角度以優化抓取效率,并對突發狀況作出即時反應。這些案例證明,機器人正從單一指令執行者轉變為具備環境理解與自主決策的智能體。