谷歌在機(jī)器人技術(shù)領(lǐng)域邁出了重要一步,近日推出了Gemini Robotics On-Device模型,這一升級(jí)版是在今年三月首次亮相的“視覺語言動(dòng)作”(VLA)模型基礎(chǔ)上優(yōu)化而來。據(jù)谷歌官方介紹,該模型是其目前最為強(qiáng)大的VLA模型,專為在機(jī)器人設(shè)備上實(shí)現(xiàn)本地運(yùn)行而設(shè)計(jì)。
谷歌DeepMind的高級(jí)總監(jiān)及機(jī)器人項(xiàng)目負(fù)責(zé)人表示,Gemini Robotics On-Device模型的一大亮點(diǎn)在于其獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行的能力。這意味著,在延遲敏感的應(yīng)用場(chǎng)景中,該模型能夠發(fā)揮巨大作用,特別是在那些可能遭遇間歇性斷網(wǎng)或無網(wǎng)絡(luò)連接的環(huán)境中,它依然能夠保持穩(wěn)定的運(yùn)行表現(xiàn)。
專為雙臂機(jī)器人打造的Gemini Robotics On-Device模型,旨在提升機(jī)器人在處理復(fù)雜任務(wù)時(shí)的靈活性和適應(yīng)能力。在一次演示活動(dòng)中,谷歌團(tuán)隊(duì)展示了搭載這一本地模型的機(jī)器人,它們能夠輕松完成拉開拉鏈、折疊衣物等基本動(dòng)作,展現(xiàn)了模型在實(shí)際應(yīng)用中的潛力。
值得注意的是,雖然Gemini Robotics On-Device模型最初是為ALOHA機(jī)器人訓(xùn)練的,但谷歌隨后對(duì)其進(jìn)行了調(diào)整,使其能夠適用于雙臂Franka FR3機(jī)器人和Apollo人形機(jī)器人。這一調(diào)整大大拓寬了模型的應(yīng)用范圍,為更多類型的機(jī)器人提供了強(qiáng)大的技術(shù)支持。
為了促進(jìn)Gemini Robotics技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,谷歌DeepMind還發(fā)布了Gemini Robotics SDK。開發(fā)人員可以在MuJoCo高級(jí)物理模擬器上利用這些模型,通過向機(jī)器人展示50到100個(gè)任務(wù)演示來訓(xùn)練它們完成任務(wù)。這一舉措無疑將加速機(jī)器人技術(shù)的創(chuàng)新和應(yīng)用進(jìn)程。
與傳統(tǒng)的“大語言模型”相比,機(jī)器人AI面臨著更為復(fù)雜的問題和挑戰(zhàn)。機(jī)器人不僅存在于物理世界中,還會(huì)對(duì)其環(huán)境產(chǎn)生影響。谷歌DeepMind機(jī)器人技術(shù)負(fù)責(zé)人強(qiáng)調(diào),Gemini不僅能夠生成文本、寫詩、總結(jié)文章、編寫代碼,現(xiàn)在還能生成機(jī)器人動(dòng)作。這意味著谷歌的機(jī)器人模型已經(jīng)能夠通過大數(shù)據(jù)訓(xùn)練來掌握各種動(dòng)作,并在快速迭代中應(yīng)對(duì)物理世界的各種挑戰(zhàn)。
在安全性方面,谷歌也采取了嚴(yán)格的措施來保障Gemini Robotics的安全。他們采用了多層限制的方法,通過底層VLA模型和上層VLA推理模型相結(jié)合的方式來判斷指令的安全性。這種“AI管理AI”的方式為機(jī)器人技術(shù)的安全性提供了有力的保障。
隨著谷歌在機(jī)器人技術(shù)領(lǐng)域的持續(xù)深耕,越來越多的公司也開始關(guān)注并投入這一領(lǐng)域。Nvidia等知名企業(yè)正在秘密研發(fā)自己的機(jī)器人項(xiàng)目,而國內(nèi)也有不少企業(yè)在默默耕耘這一賽道。可以預(yù)見,未來機(jī)器人AI領(lǐng)域?qū)⒂瓉砀蛹ち业母?jìng)爭(zhēng)和更加廣闊的發(fā)展前景。