近期,谷歌在人工智能領(lǐng)域的一項(xiàng)新進(jìn)展引起了廣泛關(guān)注。在一則最新播客節(jié)目中,一款搭載了Gemini人工智能技術(shù)的機(jī)器人,在沒(méi)有事先教導(dǎo)的情況下,成功完成了一次“扣籃”動(dòng)作,展現(xiàn)了其迅速適應(yīng)新環(huán)境的能力。
這一壯舉緊隨其在洛杉磯RSS2025(機(jī)器人軟件與系統(tǒng)大會(huì))上的全球首次互動(dòng)式現(xiàn)場(chǎng)展示。會(huì)上,運(yùn)行著Gemini Robotics On-Device模型的機(jī)器人吸引了眾多目光。硅谷AI領(lǐng)域的觀察者Ted Xiao對(duì)此評(píng)論道:“這仿佛是對(duì)未來(lái)的一次神奇預(yù)覽——只需與機(jī)器人進(jìn)行對(duì)話(huà),它就能做出恰當(dāng)?shù)幕貞?yīng),并嘗試執(zhí)行一系列合理的操作,無(wú)論是面對(duì)新的物體、命令還是技能。”
Gemini Robotics On-Device模型于6月24日正式發(fā)布,這一創(chuàng)新將AI引入了機(jī)器人領(lǐng)域,且整個(gè)過(guò)程中無(wú)需持續(xù)依賴(lài)互聯(lián)網(wǎng)連接,實(shí)現(xiàn)了離線工作。谷歌在X部門(mén)強(qiáng)調(diào),這是他們首個(gè)“視覺(jué)-語(yǔ)言-動(dòng)作”模型,旨在幫助機(jī)器人更快、更高效地適應(yīng)各種新任務(wù)和新環(huán)境。
回顧今年早些時(shí)候,F(xiàn)igure公司發(fā)布的“歷史上最重大的人工智能更新”——Helix,同樣是一款專(zhuān)注于通用人形機(jī)器人控制的“視覺(jué)-語(yǔ)言-動(dòng)作”(VLA)模型。然而,與Figure的模型不同,谷歌的這款模型能夠獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行,這對(duì)于對(duì)延遲敏感的應(yīng)用尤為關(guān)鍵,確保了即使在間歇性或無(wú)網(wǎng)絡(luò)連接的環(huán)境中也能穩(wěn)定運(yùn)行。
事實(shí)上,早在今年3月,谷歌就已推出了第一代VLA(視覺(jué)語(yǔ)言動(dòng)作)模型Gemini Robotics,將Gemini 2.0的多模態(tài)推理和現(xiàn)實(shí)世界理解能力引入物理世界。而此次發(fā)布的Gemini Robotics On-Device模型,作為雙臂機(jī)器人的基礎(chǔ)模型,除了極大地減少了計(jì)算資源需求外,還主要解決了三個(gè)核心問(wèn)題:靈巧操作、新任務(wù)的快速適應(yīng)以及基于本地運(yùn)行的低延遲推理。
在官方演示視頻中,一對(duì)靈巧的機(jī)械手不僅能夠輕松拿起一支筆,還能相互配合拔掉筆蓋。隨后的測(cè)試中,這對(duì)機(jī)械手成功完成了“放置藍(lán)色磚塊”、“拉開(kāi)中間抽屜”以及“歸位‘梨’模型”等任務(wù),僅憑自然語(yǔ)言指令如“Can you close the middle drawer?”(你能關(guān)上中間的抽屜嗎?)就展現(xiàn)出了強(qiáng)大的視覺(jué)、語(yǔ)義和行為泛化能力。
除了演示之外,Gemini Robotics On-Device模型在基礎(chǔ)跑分?jǐn)?shù)據(jù)上也表現(xiàn)出色。在泛化能力方面,盡管略低于谷歌旗艦Gemini Robotics模型的表現(xiàn),但仍遠(yuǎn)超之前最好的離線模型。在分布式任務(wù)和復(fù)雜多步驟指令方面,該模型也優(yōu)于其他設(shè)備端替代方案。
面對(duì)家中無(wú)數(shù)形狀、大小、顏色和紋理各異的物品,機(jī)器人需要能夠按需產(chǎn)生智能的新行為,尤其是對(duì)于那些從未見(jiàn)過(guò)的物體。機(jī)器人技術(shù)的一大挑戰(zhàn)在于,舉一反三并非易事。而Gemini Robotics On-Device模型通過(guò)50到100次演示即可快速適應(yīng)新任務(wù),展現(xiàn)了其強(qiáng)大的新任務(wù)適應(yīng)能力。
谷歌還展示了這一性能在實(shí)際應(yīng)用中的效果,將其調(diào)整并應(yīng)用到了雙臂Franka FR3機(jī)器人和Apptronik的Apollo人形機(jī)器人上。在Franka機(jī)器人上,該模型能夠執(zhí)行通用指令,處理以前未見(jiàn)過(guò)的物體和場(chǎng)景,完成包括折疊衣服在內(nèi)的靈巧任務(wù),以及需要精確度和靈巧性的工業(yè)皮帶組裝任務(wù)。在Apollo人形機(jī)器人上,通用模型同樣能夠遵循自然語(yǔ)言指令,以通用的方式操控不同的物體,包括之前從未見(jiàn)過(guò)的物體。
這一系列創(chuàng)新引發(fā)了網(wǎng)友的熱烈討論。有人認(rèn)為,谷歌的脫機(jī)AI機(jī)器人具有改變游戲規(guī)則的可能性。然而,也有人提出質(zhì)疑,詢(xún)問(wèn)這與特斯拉機(jī)器人的設(shè)計(jì)有何不同,以及與ylecun在meta所做的工作有何差異。在機(jī)器人/具身智能這一賽道上,各家大模型正展現(xiàn)出多樣性和豐富性的技術(shù)向度,共同指向同一個(gè)核心命題——如何讓AI在三維物理世界中建立真正的因果認(rèn)知。