谷歌近期宣布了一項創新技術突破,推出了一款名為Gemini Robotics On-Device的視覺-語言-動作(VLA)模型,專為雙臂機器人設計。這款模型被標榜為谷歌迄今為止最強大的機器人基礎模型,其核心優勢在于對計算資源的極致優化。
Gemini Robotics On-Device不僅具備卓越的通用靈巧操作能力,還能實現任務泛化,這意味著它能夠迅速適應并執行各種新任務。通過微調,該模型能夠針對特定應用場景提升性能,從而支持快速實驗和高效任務執行。
尤為引人注目的是,Gemini Robotics On-Device能夠完全在機器人設備上離線運行。這一特性使其特別適用于對延遲敏感的應用場景,即便在網絡連接不穩定或完全中斷的情況下,也能保持穩定運行。谷歌強調,這一創新使得機器人在斷網環境下依然能夠“觀察、理解并執行指令”。
在多個測試場景中,Gemini Robotics On-Device展現了強大的視覺識別、語義理解和行為執行能力。它能夠理解自然語言指令,并成功完成如拉開拉鏈、折疊衣物等高難度靈巧任務。這些能力不僅展示了模型的泛化性能,也預示著其在實際應用中的巨大潛力。
除了離線運行外,Gemini Robotics On-Device的另一大亮點是其高度的可微調性。這一特性不禁讓人聯想到安卓系統的開放性,安卓系統通過高度開放的架構,讓開發者和廠商能夠定制系統以滿足用戶需求。而Gemini Robotics On-Device則是通過可微調性,讓機器人能夠更好地適應和執行各種任務。
作為谷歌首個對外開放的VLA模型,Gemini Robotics On-Device允許開發者進行適配,以提升在具體應用場景中的性能。據谷歌介紹,僅需50-100個示范樣本,該模型就能顯示出良好的泛化能力。這一特性使得Gemini Robotics On-Device在實際應用中具有極高的靈活性和適應性。
為了驗證模型的性能,谷歌在七個不同難度級別的靈巧操作任務中進行了測試,包括拉上便當盒拉鏈、抽卡和倒沙拉醬等操作。測試結果顯示,Gemini Robotics On-Device在各種任務中都表現出了出色的性能。
谷歌還將Gemini Robotics On-Device模型適配到了Franka FR3雙臂機器人和Apollo人形機器人等不同的機器人實體上。在雙臂Franka機器人上,該模型能夠執行通用指令,包括處理未見過的物體和場景、完成靈巧任務以及執行高精確度的工業傳送帶組裝任務。而在Apollo人形機器人上,谷歌對模型進行了適應性調整,以適配其獨特的實體形態。
這些成功的應用案例不僅展示了Gemini Robotics On-Device模型的強大功能,也預示著其在未來機器人技術領域的廣闊應用前景。