谷歌在機(jī)器人技術(shù)領(lǐng)域再次邁出重要一步,近日宣布推出Gemini Robotics On-Device模型,這是其“視覺語(yǔ)言動(dòng)作”(VLA)模型的升級(jí)版。這一新版本經(jīng)過(guò)特別優(yōu)化,旨在直接在機(jī)器人設(shè)備上運(yùn)行,無(wú)需依賴云端或數(shù)據(jù)中心。
據(jù)谷歌介紹,Gemini Robotics On-Device代表了他們目前最先進(jìn)的VLA技術(shù)。這一模型能夠獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)作,這對(duì)于需要即時(shí)響應(yīng)的應(yīng)用場(chǎng)景尤為重要。在網(wǎng)絡(luò)不穩(wěn)定或完全無(wú)網(wǎng)絡(luò)的環(huán)境中,該模型仍能保持穩(wěn)定運(yùn)行,從而大大擴(kuò)展了機(jī)器人的應(yīng)用場(chǎng)景。
谷歌DeepMind的高級(jí)總監(jiān)兼機(jī)器人項(xiàng)目主管表示,Gemini Robotics On-Device專為雙臂機(jī)器人設(shè)計(jì),旨在提升其處理復(fù)雜任務(wù)的靈活性和適應(yīng)性。在之前的演示中,搭載了這一本地模型的機(jī)器人已經(jīng)能夠輕松完成如拉開拉鏈和折疊衣物等精細(xì)動(dòng)作。
谷歌進(jìn)一步透露,雖然Gemini Robotics On-Device最初是為ALOHA機(jī)器人訓(xùn)練的,但經(jīng)過(guò)調(diào)整后,它現(xiàn)在也能適用于雙臂Franka FR3機(jī)器人和Apollo人形機(jī)器人。這一兼容性使得該模型具有更廣泛的應(yīng)用潛力。
為了支持開發(fā)人員的創(chuàng)新,谷歌DeepMind還發(fā)布了Gemini Robotics SDK。借助這一工具包,開發(fā)人員可以在MuJoCo高級(jí)物理模擬器上利用這些模型,通過(guò)向機(jī)器人展示50到100個(gè)任務(wù)演示來(lái)訓(xùn)練它們完成任務(wù)。這大大降低了機(jī)器人編程的門檻,使得更多人能夠參與到機(jī)器人技術(shù)的開發(fā)中。
與單純的“大語(yǔ)言模型”相比,機(jī)器人AI面臨著更多的挑戰(zhàn)。因?yàn)樗鼈儾粌H存在于物理世界中,還會(huì)改變其環(huán)境。谷歌DeepMind機(jī)器人技術(shù)負(fù)責(zé)人強(qiáng)調(diào),Gemini不僅能夠生成文本、寫詩(shī)、總結(jié)文章甚至編寫代碼,現(xiàn)在還能生成機(jī)器人動(dòng)作。這意味著谷歌的機(jī)器人模型已經(jīng)能夠通過(guò)大數(shù)據(jù)訓(xùn)練來(lái)掌握各種動(dòng)作,在快速迭代中應(yīng)對(duì)物理世界的各種挑戰(zhàn)。
在安全性方面,谷歌也采取了嚴(yán)格措施。他們采用多層限制的方法來(lái)控制機(jī)器人,確保指令的安全執(zhí)行。具體來(lái)說(shuō),一個(gè)底層VLA模型負(fù)責(zé)控制機(jī)器人的基本操作,而一個(gè)上級(jí)VLA模型則通過(guò)推理來(lái)判斷哪些指令是安全的。這種“AI管理AI”的方式大大增強(qiáng)了機(jī)器人的安全性。
隨著谷歌在機(jī)器人技術(shù)領(lǐng)域的不斷突破,越來(lái)越多的公司也開始關(guān)注這一領(lǐng)域。包括Nvidia在內(nèi)的許多企業(yè)都在秘密研發(fā)自己的機(jī)器人項(xiàng)目。在國(guó)內(nèi),同樣有許多企業(yè)在默默耕耘,期待在新一輪的AI大戰(zhàn)中嶄露頭角。