在科技領域的一次重大突破中,Google DeepMind于近日宣布了Gemini Robotics On-Device的誕生,這是首個能夠完全在機器人本地部署的視覺-語言-動作(VLA)模型。這一創新標志著具身智能(Embodied AI)的發展邁入了新階段,即從云端依賴轉向本地自主運行,為行業應用開辟了全新的可能性。
長久以來,具身智能的兩大部署難題——對云計算資源的嚴重依賴和模型體積龐大難以在機器人有限計算資源上高效運行——一直困擾著業界。Gemini Robotics On-Device的推出,有效解決了這些問題。該模型能夠在算力受限的機器人設備上流暢運行,展現出卓越的通用性和任務泛化能力,尤其在對延遲敏感的應用中展現出顯著優勢。
DeepMind的演示視頻中,Gemini Robotics On-Device在無網絡連接狀態下成功完成了諸如“將魔方放入包裝袋”和“拉開包包拉鏈”等復雜任務,這些任務涵蓋了感知、語義理解、空間推理和高精度執行等多個環節,充分展示了其高水平的通用能力和穩定性。據DeepMind研究人員介紹,該模型僅需50至100次演示就能學習新技能,大大提升了模型的應用范圍和部署靈活性。
值得注意的是,盡管Gemini Robotics On-Device最初是針對特定機器人進行訓練的,但它卻能夠泛化到不同形態的機器人上,如雙臂機器人和人形機器人,這進一步擴展了其應用潛力。在演示視頻中,可以看到該模型在雙臂Franka機器人上執行通用指令,包括處理未見過的物體和場景、完成折疊衣服等靈巧任務,或執行需要精確度和靈巧性的工業皮帶組裝任務。
谷歌還首次開放了VLA模型的微調功能,這意味著工程師或機器人公司可以根據自有數據對模型進行定制訓練,從而優化其在特定任務、場景或硬件平臺上的表現。同時,谷歌推出了Gemini Robotics SDK,為開發者提供了模型評估和快速調整的便利。這些舉措表明,谷歌正致力于打造一個開放、通用且易于開發的機器人平臺,類似于安卓系統在智能手機行業所扮演的角色。
具身智能領域的一位專家表示,Gemini Robotics On-Device的推出標志著機器人終于能夠走進真實環境。以往受限于帶寬和算力,許多機器人AI只能停留在示范階段。而這次谷歌的進展意味著通用模型可以真正運行在硬件終端上,未來即使不依賴聯網也能執行復雜操作。這一創新將使得機器人更適合家庭、醫療、教育等敏感場景,解決數據隱私、實時反應、安全穩定性等核心挑戰。
隨著AI算力和模型架構的持續演進,邊緣智能正逐步從傳統的物聯網(IoT)走向以具身智能為代表的更高級階段。本地VLA模型將成為下一個競爭焦點。一位關注機器人領域的投資人認為,一旦硬件標準趨于統一,將大大推動算法的標準化與本地部署的實現。谷歌正在構建的“機器人安卓生態”愿景預示著一個更加標準化、易于開發與普及的具身智能時代的到來。
然而,在實際落地過程中,挑戰依然嚴峻。機器人硬件的多樣性和復雜性意味著即使是強大的通用模型,也需要針對每種具體硬件進行細致的適配和調優。要在海量、多樣化的實際應用場景中真正落地,數據收集和標注的成本可能異常高昂,特別是在需要專業操作知識和設備的工業或特定服務場景。更重要的是,機器人需要在極其復雜、動態且不可預測的真實世界環境中保持魯棒性,這對模型的實時感知和決策能力提出了嚴苛考驗。