谷歌DeepMind團隊再次刷新機器人智能領域的高度,正式推出專為具身智能設計的Gemini Robotics 1.5系列模型。這一創新成果標志著機器人從“執行指令”向“主動思考”的跨越式發展,為通用機器人的實際應用開辟了新路徑。
系列模型包含兩大核心組件:Gemini Robotics 1.5與Gemini Robotics-ER 1.5。前者作為視覺-語言-動作模型,能夠將環境感知與任務指令轉化為精準的機械運動;后者則定位為具備物理世界推理能力的視覺-語言模型,擅長制定多步驟計劃并調用數字工具。二者通過協同工作,構建出完整的智能體決策框架。
在谷歌實驗室的演示視頻中,搭載新模型的機器人展現了令人驚嘆的場景適應能力。面對舊金山垃圾分類標準,名為Aloha的機器人通過查閱規則并分析物品特征,準確將廢棄物分配至堆肥、回收和垃圾三類容器。另一場景中,Apollo機器人接到打包行李指令后,不僅完成針織帽的收納,還主動查詢倫敦天氣數據,將雨傘加入行李清單,展現出環境理解與自主決策的融合能力。
Gemini Robotics-ER 1.5的突破性在于其具身推理優化能力。該模型支持自然語言交互,可實時評估任務進度與成功率,并能調用谷歌搜索等外部工具獲取信息。在技術實現層面,其通過物體檢測、狀態估計、軌跡預測等模塊,構建起對物理世界的立體認知。例如在動態場景中,模型能準確識別物體位置變化,并調整后續操作策略。
作為執行層的Gemini Robotics 1.5則專注于動作轉化。該模型通過視覺理解與語言解析,將高層規劃拆解為具體機械指令。特別值得關注的是其反思機制——機器人能通過自然語言解釋決策過程,這種透明性設計為調試與優化提供了全新維度。在復雜任務中,模型甚至能生成內部推理序列,實現多步驟語義理解。
跨具身學習能力是該系列的另一大亮點。傳統機器人模型需要針對不同機械形態單獨訓練,而Gemini Robotics 1.5通過統一架構實現了技能遷移。實驗顯示,在衣柜場景中積累經驗的Aloha機器人,其開門、取衣等動作可無縫轉移至從未接觸過該環境的Apollo機器人。這種“跨物種”學習能力,為物流、零售等領域的機器人協同提供了技術基礎。
在長達3分40秒的復雜任務演示中,機器人展現了鏈式規劃與動態調整能力。面對水果分類任務,系統需同步處理顏色識別、空間定位與動作排序;在洗衣分類場景中,機器人能根據衣物堆疊狀態調整抓取策略,甚至對突發干擾作出即時反應。這些表現證明,新一代模型已具備處理開放式任務的能力。
技術實現層面,兩個模型均基于Gemini核心架構,通過針對性數據集微調形成專業能力。當ER 1.5制定出自然語言步驟后,1.5模型即執行具體動作,形成“規劃-執行-反饋”的完整閉環。這種設計顯著提升了機器人在長周期任務中的表現穩定性,使其能更好適應多樣化現實場景。