在具身智能領域,VLA(Vision-Language-Action,視覺-語言-動作)模型正迅速崛起,成為業界矚目的焦點。谷歌近期推出的Gemini Robotics On-Device模型,以其強大的離線運行能力和高靈巧度任務執行能力,為機器人技術樹立了新的標桿。
這款專為機器人設計的端側模型,無需依賴數據網絡,即可在機器人設備上本地運行。在多種測試場景中,Gemini Robotics On-Device展現了出色的視覺識別、語義理解和行為泛化能力。它能夠理解自然語言指令,并完成諸如拉開拉鏈、折疊衣物等復雜任務,展現了極高的智能化水平。
VLA模型的出現,標志著具身智能領域的一次重大突破。它讓機器人能夠將語言意圖、視覺感知與物理動作緊密結合,形成連續的決策流。這一技術范式不僅提升了機器人的智能化水平,更為機器人產業的落地應用開辟了廣闊的空間。
值得注意的是,谷歌并非唯一在VLA領域布局的巨頭。今年以來,微軟、Figure AI等海外公司也相繼推出了自己的VLA模型。在國內,銀河通用、智元機器人、自變量機器人等機器人公司也在這一領域展開了積極探索。
谷歌DeepMind團隊推出的Gemini Robotics模型,被譽為“機器人版的安卓”。這一模型基于Gemini 2.0打造,能夠讓機器人理解復雜環境并執行精細任務。在演示視頻中,Gemini Robotics借助雙臂機器人,流暢地完成了折紙、拉拉鏈等高難度動作,展現了其強大的應用能力。
而Gemini Robotics On-Device的推出,更是將具身智能從云端算力依賴轉向了本地自主運行。這一轉變不僅解決了機器人在無網絡環境中的作業難題,還提高了模型在機器人有限計算資源上的運行效率。業內人士認為,這將為機器人在更多場景中的應用提供可能。
除了谷歌之外,國內機器人公司也在VLA領域取得了顯著進展。銀河通用推出的TrackVLA和GroceryVLA模型,分別針對導航和零售場景進行了優化。在演示中,搭載了GroceryVLA的機器人能夠根據語言指令,在商超場景中自主為顧客選擇食物并送到手中,全程無需遙控操作。
智元機器人則發布了首個通用具身基座模型智元啟元大模型(GO-1),該模型采用了Vision-Language-Latent-Action (ViLLA) 架構,實現了小樣本快速泛化。目前,GO-1大模型已成功部署到智元多款機器人本體之中,展現了良好的應用效果。
自變量機器人研發的WALL-A模型,則是世界上最大規模的端到端統一具身大模型。這一模型突破了傳統分層架構的噪聲傳遞問題,支持從原始傳感器信號到機器人動作的縱向統一和橫向任務統一,跨任務泛化能力出色。自成立以來,自變量機器人已完成了多輪融資,累計融資金額超過10億元。
隨著VLA模型的不斷發展,機器人將擁有更加智能、靈活的應用能力。這一技術趨勢將推動機器人產業邁向新的高度,為人類社會帶來更多便利和驚喜。