6月28日消息,在谷歌的最新播客中,機(jī)器人在Gemini人工智能技術(shù)的加持下,未經(jīng)教授就完成了一次“扣籃”動(dòng)作,展現(xiàn)出迅速適應(yīng)新場(chǎng)景的能力。
兩天前的洛杉磯,運(yùn)行著Gemini Robotics On-Device 模型的機(jī)器人還在RSS2025(機(jī)器人軟件與系統(tǒng)大會(huì))上完成了全球首個(gè)互動(dòng)式現(xiàn)場(chǎng)展示。硅谷AI觀察人士Ted Xiao表示,“它仿佛是對(duì)未來的神奇一瞥——只需與你的機(jī)器人對(duì)話,它就會(huì)做出適當(dāng)?shù)幕貞?yīng),并嘗試執(zhí)行一些合理的操作。新的物體、新的命令、新的技能。”
谷歌Gemini Robotics On-Device 模型發(fā)布于6月24日,AI 被引入了機(jī)器人,在整個(gè)過程中不需要持續(xù)的互聯(lián)網(wǎng)連接,機(jī)器人實(shí)現(xiàn)了脫機(jī)工作。
谷歌在X上表示,這是自己首個(gè)“視覺-語言-動(dòng)作”模型,旨在能夠幫助機(jī)器人更快、更高效地適應(yīng)新任務(wù)和新環(huán)境。如果我們稍加回憶,今年2月底,F(xiàn)igure發(fā)布的“歷史上最重大的人工智能更新”——Helix也是一款用于通用人形機(jī)器人控制的“視覺-語言-動(dòng)作”(VLA) 模型。
不同的是,由于谷歌家的這款模型獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行,它對(duì)延遲敏感的應(yīng)用程序很有幫助,并確保了間歇性或零連接環(huán)境中的穩(wěn)健性。
事實(shí)上,早在今年3月,谷歌就推出了第一代VLA(視覺語言動(dòng)作)模型Gemini Robotics,將Gemini 2.0的多模態(tài)推理和現(xiàn)實(shí)世界理解帶入物理世界。
而作為雙臂機(jī)器人的基礎(chǔ)模型的新選手Gemini Robotics On-Device ,除了最大限度減少計(jì)算資源需求之外,主要解決3個(gè)問題:靈巧操作、新任務(wù)的微調(diào)和適應(yīng)、基于本地運(yùn)行的低延遲快速推理。
官方演示視頻中,這一對(duì)靈巧手不僅可以拿起一支筆,還可以相互配合拔掉筆蓋。
在接下來的測(cè)試中,這一對(duì)靈巧手完成了“放置藍(lán)色的磚塊”、“拉開中間的抽屜”和“歸位‘梨’模型”的任務(wù),顯示出強(qiáng)大的視覺、語義和行為泛化能力,并且僅僅依賴自然語言指令——“Can you close the middle drawer”?
演示之外,基礎(chǔ)跑分?jǐn)?shù)據(jù)上,Gemini Robotics On-Device也有不俗的表現(xiàn)。
首先是泛化能力,谷歌直接拉出了“當(dāng)家花旦”——旗艦 Gemini Robotics 模型和 Previous Best On-Device模型進(jìn)行比拼。結(jié)果上,Gemini Robotics On-Device雖然略低于旗艦產(chǎn)品的表現(xiàn),但也超出之前最好的離線模型一大截。
而在分布式任務(wù)和復(fù)雜的多步驟指令方面,Gemini Robotics On-Device 模型的表現(xiàn)也優(yōu)于其他設(shè)備端替代方案。
早在2月Figure的相關(guān)文章中就曾提到,“與受控的工業(yè)環(huán)境不同,家里堆滿了無數(shù)的物品——精致的玻璃器皿、皺巴巴的衣服、散落的玩具——每件物品都有不可預(yù)測(cè)的形狀、大小、顏色和紋理。為了讓機(jī)器人在家庭中發(fā)揮作用,它們需要能夠按需產(chǎn)生智能的新行為,尤其是對(duì)它們從未見過的物體。”機(jī)器人技術(shù)上的一大難題在于,舉一反一簡(jiǎn)單,舉一反三并不容易。
如何處理在訓(xùn)練樣本中從未見過的任務(wù),直接反映了機(jī)器人對(duì)新任務(wù)的適應(yīng)能力。Figure家的Helix 給出的解法是使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來學(xué)習(xí)所有行為,建立了兩個(gè)可以通信的“系統(tǒng) 1、系統(tǒng) 2”來分別完成“想”和“干”,而無需任何針對(duì)特定任務(wù)的微調(diào)。
而Gemini Robotics On-Device 給開發(fā)者提供了微調(diào)的選擇,通過50 到 100 次演示即可快速適應(yīng)新任務(wù)。微調(diào)任務(wù)的跑分如下:
在喂了Gemini Robotics On-Device 100個(gè)以內(nèi)的示例之后,它展現(xiàn)出了如上圖所示的適應(yīng)能力。
谷歌還公布了這一性能的演示,并將其進(jìn)一步調(diào)整到了雙臂Franka FR3 機(jī)器人和Apptronik 的Apollo 人形機(jī)器人中。
在雙臂 Franka 上,該模型執(zhí)行通用指令,可以處理以前未見過的物體和場(chǎng)景、完成折疊衣服等靈巧的任務(wù),包括需要精確度和靈巧性的工業(yè)皮帶組裝任務(wù)。
在阿波羅人形機(jī)器人上同樣如此,通用模型可以遵循自然語言指令,以通用的方式操控不同的物體,包括之前從未見過的物體。
對(duì)此,有網(wǎng)友認(rèn)為,谷歌的脫機(jī)AI機(jī)器人存在改變游戲規(guī)則的可能性。
當(dāng)然,也有網(wǎng)友并不買賬。提問這和特斯拉機(jī)器人的設(shè)計(jì)有什么不同,又和ylecun在meta所做的工作有什么不一樣。
在機(jī)器人/具身智能這個(gè)賽道,各家大模型正在“八仙過海”,技術(shù)向度展現(xiàn)出了多樣性和豐富性,但最終指向了同一個(gè)命題——如何讓AI在三維物理世界建立真正的因果認(rèn)知。
或許正如谷歌在技術(shù)白皮書中所寫:“機(jī)器人不應(yīng)是人類的模仿者,而應(yīng)成為物理世界的解讀者”。