谷歌DeepMind再次刷新機(jī)器人技術(shù)邊界,正式推出全球首個(gè)具備模擬推理能力的具身模型——Gemini Robotics 1.5系列。這款新一代通用機(jī)器人基座模型不僅整合了視覺(jué)、語(yǔ)言與動(dòng)作(VLA)的多模態(tài)能力,更通過(guò)具身推理(Embodied Reasoning)機(jī)制實(shí)現(xiàn)了“先思考、后行動(dòng)”的突破性功能。
該系列由兩大核心模型構(gòu)成:Gemini Robotics 1.5(GR 1.5)作為多模態(tài)執(zhí)行層,負(fù)責(zé)將語(yǔ)言與視覺(jué)輸入轉(zhuǎn)化為具體動(dòng)作;Gemini Robotics-ER 1.5(GR-ER 1.5)則強(qiáng)化推理能力,承擔(dān)任務(wù)規(guī)劃、工具調(diào)用與進(jìn)度監(jiān)控。其中,GR-ER 1.5成為全球首個(gè)具備模擬推理能力的具身模型,其“ER”后綴即代表“具身推理”。
與傳統(tǒng)機(jī)器人模型不同,GR 1.5系列通過(guò)顯性推理機(jī)制顯著提升了任務(wù)完成能力。例如,在分揀深淺色衣物或根據(jù)天氣自動(dòng)打包行李的任務(wù)中,機(jī)器人不僅能分解復(fù)雜流程,還能在執(zhí)行過(guò)程中自我檢測(cè)并修正錯(cuò)誤。更令人矚目的是,該模型能根據(jù)不同地區(qū)的垃圾分類標(biāo)準(zhǔn)(如北京與上海的差異),主動(dòng)搜索網(wǎng)絡(luò)信息以輔助完成任務(wù)。
跨平臺(tái)遷移能力是該系列的另一大亮點(diǎn)。通過(guò)Motion Transfer技術(shù),GR 1.5系列實(shí)現(xiàn)了“零樣本”技能遷移:在ALOHA雙臂機(jī)器人上訓(xùn)練的操作可直接應(yīng)用于Franka工業(yè)機(jī)器人,甚至能無(wú)縫遷移至Apollo人形機(jī)器人。這種通用性打破了硬件形態(tài)的限制,使單一模型能驅(qū)動(dòng)低成本機(jī)器人、工業(yè)級(jí)設(shè)備及人形機(jī)器人等多種硬件。
研究團(tuán)隊(duì)指出,GR 1.5系列的核心創(chuàng)新在于同時(shí)實(shí)現(xiàn)了三大突破:顯性推理、跨平臺(tái)遷移與物理世界理解。在傳統(tǒng)模型中,動(dòng)作往往是指令的直接映射,而GR 1.5在行動(dòng)前會(huì)生成思考軌跡,將復(fù)雜任務(wù)拆解為小步驟并逐一執(zhí)行。這種機(jī)制不僅提升了多步任務(wù)的穩(wěn)定性,還通過(guò)可視化思考過(guò)程增強(qiáng)了可解釋性。
Motion Transfer技術(shù)的引入是關(guān)鍵。該技術(shù)將不同機(jī)器人的運(yùn)動(dòng)軌跡映射至統(tǒng)一動(dòng)作語(yǔ)義空間,使機(jī)械臂與人形機(jī)器人等硬件能共享技能。例如,模型在ALOHA上學(xué)會(huì)的抓取動(dòng)作,可直接遷移至Franka執(zhí)行,無(wú)需針對(duì)新平臺(tái)重新訓(xùn)練。研究顯示,該技術(shù)通過(guò)提煉物理世界的通用規(guī)律(如物體抓取方式、平衡維持策略),顯著提升了任務(wù)泛化能力。
安全性與魯棒性同樣得到重視。在ASIMOV-2.0安全基準(zhǔn)測(cè)試中,GR 1.5展現(xiàn)出更高的風(fēng)險(xiǎn)識(shí)別與干預(yù)能力,能主動(dòng)理解動(dòng)作背后的物理風(fēng)險(xiǎn)并觸發(fā)保護(hù)機(jī)制。配合自動(dòng)紅隊(duì)測(cè)試的持續(xù)優(yōu)化,模型在抵御對(duì)抗攻擊、避免幻覺(jué)響應(yīng)等方面表現(xiàn)更強(qiáng)。例如,當(dāng)機(jī)器人抓取水瓶失敗時(shí),會(huì)立即切換方案使用另一只手完成任務(wù)。
學(xué)術(shù)基準(zhǔn)測(cè)試進(jìn)一步驗(yàn)證了該系列的優(yōu)越性。GR-ER 1.5在空間推理、復(fù)雜指點(diǎn)、進(jìn)度檢測(cè)等任務(wù)上全面超越GPT-5和Gemini 2.5 Flash,刷新了業(yè)界表現(xiàn)上限。在230項(xiàng)任務(wù)的評(píng)測(cè)中,GR 1.5在指令泛化、動(dòng)作泛化、視覺(jué)泛化及任務(wù)泛化四個(gè)維度均優(yōu)于前代模型。結(jié)合GR-ER 1.5的系統(tǒng)在長(zhǎng)時(shí)序任務(wù)上完成進(jìn)度分?jǐn)?shù)接近80%,幾乎是單一VLA模型的兩倍。
數(shù)據(jù)與訓(xùn)練策略是支撐該系列成功的基石。研究團(tuán)隊(duì)采集了ALOHA、Franka、Apollo等平臺(tái)上成千上萬(wàn)種操作數(shù)據(jù),同時(shí)引入互聯(lián)網(wǎng)文本、圖像與視頻信息,確保模型兼具現(xiàn)實(shí)動(dòng)作經(jīng)驗(yàn)與廣泛語(yǔ)義知識(shí)。訓(xùn)練過(guò)程中,約九成迭代在MuJoCo仿真環(huán)境中完成,使模型能快速試錯(cuò)、迭代后再遷移至真實(shí)硬件,顯著提升了研發(fā)效率與現(xiàn)實(shí)穩(wěn)定性。
目前,開(kāi)發(fā)者已可通過(guò)Google AI Studio中的Gemini API使用GR-ER 1.5,但GR 1.5僅向少數(shù)谷歌DeepMind合作伙伴開(kāi)放。這一系列模型的推出,標(biāo)志著機(jī)器人技術(shù)從執(zhí)行單一指令向真正理解并解決物理任務(wù)邁出了關(guān)鍵一步。