在人工智能與機器人技術交匯的前沿,一場革命正在悄然發生。盡管我們常常將Gemini、ChatGPT等智能聊天工具親切地稱為“機器人”,但它們與真正的物理機器人之間的差距正隨著技術的進步而縮小。近日,谷歌DeepMind宣布推出了一款全新的設備端VLA(視覺語言動作)模型,這一創新為機器人的自主運行能力帶來了質的飛躍。
與以往依賴云端支持的版本不同,這款新模型使得機器人能夠在沒有網絡連接的情況下獨立運行。谷歌DeepMind機器人部門的負責人Carolina Parada表示,這種轉變將極大地提升機器人在復雜環境中的可靠性和實用性。作為谷歌機器人模型的首個獨立版本,它為開發者提供了廣闊的空間,可以根據特定需求對機器人進行定制化優化。
機器人技術的挑戰在于,機器人不僅要在物理世界中運作,還要能夠改變其環境。無論是簡單的移動積木,還是復雜的系鞋帶任務,機器人都可能面臨各種不可預測的情況。傳統的強化學習方法雖然有效,但進展緩慢。而生成式AI的引入,為機器人動作的泛化提供了新的可能。
Parada解釋說,這款新模型利用了Gemini的多模態世界理解能力,使其能夠完成全新的任務。從生成文本、寫詩、總結文章,到編寫代碼、生成圖像,再到控制機器人的動作,Gemini展現了前所未有的多才多藝。這種能力的融合,為機器人技術的發展開辟了新的道路。
值得注意的是,這款設備端VLA模型在準確性上僅略低于之前的混合版本(即云端與本地模型結合的系統)。然而,它的本地處理能力使得機器人在執行任務時能夠迅速響應,無需等待云端的指令。這對于需要即時反應的機器人任務來說至關重要。據Parada介紹,許多任務都可以直接使用這款新模型來完成。
為了鼓勵開發者探索這款新模型的潛力,谷歌DeepMind發布了完整的SDK。通過SDK,開發者可以為Gemini驅動的機器人設計新任務,并在新環境中進行測試。這種開放式的合作方式,有望揭示出更多模型標準調優無法處理的復雜動作。據透露,使用SDK的研究人員僅需50到100次演示就能讓VLA適應新任務。
在AI機器人技術中,“演示”是一種獨特的學習方法。它通常涉及遠程操作機器人,通過手動控制機械設備完成任務來調優模型。雖然合成數據在訓練過程中扮演著重要角色,但真實數據仍然是不可或缺的。Parada強調:“對于最復雜、最精細的行為,我們需要真實數據來訓練模型?!比欢?,她也承認仿真技術在許多方面都能發揮重要作用。
盡管這款設備端VLA模型在處理簡單動作方面表現出色,如系鞋帶或折疊襯衫等任務,但對于更復雜的多步推理任務,它可能還需要更強大的支持。例如,制作三明治這樣的任務可能需要更高級的模型來精確控制每一步的動作。
不過,團隊認為這款設備端模型在云連接不穩定或不存在的環境中具有巨大優勢。它在保護隱私方面也更為有利,特別是在醫療等敏感領域。通過本地處理機器人的視覺數據,可以減少數據泄露的風險。
在安全性方面,Gemini Robotics采用了多層保護機制。Parada解釋說:“通過完整的Gemini Robotics系統,你可以連接到一個能夠推理安全行為的模型。然后,這個模型會與VLA進行對話,VLA再調用低級控制器來執行動作。低級控制器通常包含安全關鍵組件,如力量限制和速度控制等?!彪m然新的設備端模型本身只是一個VLA,但谷歌建議開發者采用類似的安全機制來確保機器人的安全運行。
對于有興趣測試這款新模型的開發者來說,他們可以申請加入谷歌的可信測試程序。Parada表示,過去三年中機器人技術取得了許多突破,而這只是冰山一角。隨著Gemini的不斷升級和完善,我們有理由相信未來的機器人將更加智能、更加安全、更加可靠。