谷歌DeepMind近日推出Gemini Robotics 1.5系列機器人模型,通過思維鏈機制與模型協作架構,顯著提升機器人在物理世界中的自主決策能力。該系列包含Gemini Robotics 1.5與Gemini Robotics-ER 1.5兩款模型,分別承擔執行層與規劃層功能,形成"小腦-大腦"協同體系。
作為執行層核心,Gemini Robotics 1.5是當前最先進的視覺-語言-動作(VLA)模型。其獨特之處在于具身思考能力:在執行動作前會生成自然語言形式的"思考軌跡",將復雜任務拆解為可執行的子步驟。例如處理"收拾桌面"指令時,模型會先規劃"識別物品-抓取杯子-移動至水槽"等具體動作。這種分層處理機制使機器人具備動態調整能力,當杯子意外掉落時,能立即生成"重新抓取"的修正指令。
規劃層模型Gemini Robotics-ER 1.5則專注于具身推理,其原生支持數字工具調用與多步驟計劃生成。該模型在15項學術基準測試中創下最佳紀錄,空間推理能力超越GPT-5等主流模型。具體而言,它能通過多視角視覺信息實時判斷任務進度,例如準確識別"指向桌子左下角藍色杯子"的指令,并持續評估動作與目標的匹配度。
技術實現層面,兩個模型均基于Gemini多模態架構構建,共享圖像、文本及機器人傳感器數據組成的訓練集。數據采集自ALOHA、雙臂Franka和Apollo人形機器人等異構平臺,涵蓋抓取操控、雙臂協作等數千個多樣化任務。為增強泛化能力,訓練數據還融入互聯網公開圖文視頻,并通過Gemini模型生成詳細描述,幫助捕捉圖像中的語義細節。
動作遷移機制(MT)是該系列的關鍵突破。傳統模型需要針對每個機器人平臺單獨訓練,而MT通過統一建模動作與物理特性,實現跨本體零樣本遷移。例如在ALOHA機器人上學會"開抽屜"的技能,可直接應用于Apollo人形機器人,無需額外訓練數據。這種能力源于MT對不同平臺數據的共性提取,有效打破機器人實體間的技術壁壘。
在安全控制方面,谷歌開發了多層防護體系。頂層設置安全判斷機制,底層部署碰撞避免等子系統,并發布升級版ASIMOV安全基準測試。該數據集新增邊緣場景覆蓋與視頻模式評估,Gemini Robotics-ER 1.5在其中展現出先進的語義安全理解能力,能更好遵守物理約束條件。
開發者可通過Gemini API調用Gemini Robotics-ER 1.5模型,而執行層模型目前向特定合作伙伴開放。技術報告與模型資源已同步發布,詳細披露訓練方法與性能指標。值得注意的是,訓練過程采用TPU v4/v5p/v6e硬件與JAX框架,通過并行計算實現高效擴展。
這種跨本體技術路徑正成為行業新趨勢。宇樹科技近期開源的UnifoLM-WMA-0模型雖采用不同架構,同樣具備多平臺適配能力。隨著Gemini Robotics 1.5系列展示出類似人類的場景適應力,機器人模型的通用化發展已形成技術共識。