谷歌近日推出了一款革命性的機器人具身推理模型——Gemini Robotics-ER 1.5,標志著機器人技術領域的重要突破。這款模型作為首個向全體開發者開放的Gemini機器人系列,旨在為機器人提供高級推理能力,使其能夠更智能地與物理世界互動。
Gemini Robotics-ER 1.5是一款視覺-語言模型(VLM),通過將Gemini的智能體功能引入機器人技術,賦予機器人理解復雜指令、推理物理環境并執行任務的能力。與傳統模型不同,它專為增強機器人的感知能力和現實世界互動能力而設計,能夠解讀視覺數據、執行空間推理,并根據自然語言命令規劃行動。
在操作層面,該模型可與現有機器人控制器和行為無縫配合,通過按順序調用機器人API,編排復雜行為以完成長時程任務。例如,用戶可以用自然語言下達“將物品分類到廚余、可回收和普通垃圾桶”的指令,機器人需自主查找本地垃圾分類規則、識別物品并完成投放。這種多步驟、上下文相關的任務處理能力,使其在學術和內部基準測試中達到行業頂尖水平。
模型的核心優勢之一是其快速而精確的空間推理能力。基于Gemini Flash模型的低延遲特性,它能夠生成語義精確的2D坐標點,支持“指出所有可拿起物體”等指令。在測試中,當被要求標記廚房場景圖片中的物品(如洗潔精、水龍頭)時,模型能準確提供歸一化坐標,并拒絕標記不存在的物品,避免“幻覺”錯誤。
時間推理能力是另一大亮點。通過分析視頻幀,模型可理解物體與行為之間的因果關系。例如,在機械臂整理書寫工具的視頻中,模型能按時間戳精確描述每一步操作,甚至可根據要求對特定時間段進行逐秒分解,輸出包含開始時間、結束時間和描述的JSON格式數據。
對于長周期任務,Gemini Robotics-ER 1.5展現了強大的協調能力。在制作咖啡的示例中,模型不僅能標記咖啡機下方放杯子的位置、頂部放膠囊的倉位,還能生成關閉咖啡機蓋子的8點軌跡,并指示清洗杯子的水槽位置。這種“空間錨定”計劃將文本指令與物理動作緊密結合,使機器人能高效完成復雜任務。
開發者可通過靈活調整“思考預算”來平衡模型的延遲與準確性。對于物體檢測等簡單任務,小預算即可實現高性能;而對于多步組裝等復雜任務,增加預算可顯著提升結果質量。這一特性使模型能同時滿足快速響應和精確推理的需求。
安全性方面,模型改進了語義安全過濾器,能識別并拒絕違反物理約束的計劃(如超出機器人載荷能力的操作),為開發者提供更可靠的構建環境。
目前,Gemini Robotics-ER 1.5預覽版已開放體驗。開發者可通過Google AI Studio實驗模型,閱讀開發者文檔獲取快速入門指南和API參考,或通過Colab筆記本查看實際應用案例。完整技術報告也已發布,為技術社區提供深入分析。
這款模型被視為機器人的“高級大腦”,能夠理解復雜指令、推理長周期任務并協調行為。無論是調用硬件API、專用抓取模型,還是運動控制模型,它都能將用戶請求分解為可執行的計劃,推動機器人技術向更智能、更自主的方向發展。