在具身智能技術(shù)的浪潮中,VLA(視覺-語言-動(dòng)作)模型正迅速崛起,成為行業(yè)內(nèi)的熱門焦點(diǎn)。近期,谷歌推出了一款名為Gemini Robotics On-Device的VLA模型,該模型專為機(jī)器人設(shè)計(jì),能夠在無網(wǎng)絡(luò)環(huán)境下本地運(yùn)行,展現(xiàn)了強(qiáng)大的視覺識(shí)別、語義理解和行為執(zhí)行能力。
據(jù)悉,Gemini Robotics On-Device模型在多種測(cè)試場(chǎng)景中均表現(xiàn)出色,不僅能夠理解自然語言指令,還能完成如拉開拉鏈、折疊衣物等高難度任務(wù)。這一突破意味著機(jī)器人不再依賴于云端算力,而是能夠在本地實(shí)現(xiàn)智能決策和執(zhí)行,為機(jī)器人產(chǎn)業(yè)的廣泛應(yīng)用開辟了新道路。
VLA模型作為具身智能領(lǐng)域的關(guān)鍵新范式,正在引領(lǐng)機(jī)器人技術(shù)的新一輪變革。它不僅讓機(jī)器人能夠?qū)⒄Z言意圖、視覺感知與物理動(dòng)作緊密結(jié)合,還實(shí)現(xiàn)了從感知到行動(dòng)的連續(xù)決策流。今年以來,除了谷歌,微軟、Figure AI等海外巨頭也紛紛推出了自己的VLA模型,顯示出這一領(lǐng)域的競(jìng)爭(zhēng)激烈程度。
在國(guó)內(nèi),銀河通用、智元機(jī)器人、自變量機(jī)器人等機(jī)器人公司也在VLA領(lǐng)域積極布局。銀河通用推出的TrackVLA和GroceryVLA模型,分別在導(dǎo)航和零售場(chǎng)景中展現(xiàn)了出色的端到端能力。在智源大會(huì)的演示中,搭載了GroceryVLA的機(jī)器人Galbot能夠準(zhǔn)確理解人類指令,在模擬商超場(chǎng)景中為顧客挑選并送達(dá)食物,全程無需人工遙控。
智元機(jī)器人則發(fā)布了通用具身基座模型智元啟元大模型(GO-1),該模型采用ViLLA架構(gòu),能夠通過人類視頻學(xué)習(xí)實(shí)現(xiàn)小樣本快速泛化。智元機(jī)器人還與香港大學(xué)聯(lián)合推出了UniVLA系統(tǒng),該系統(tǒng)具備跨機(jī)器人本體、場(chǎng)景與任務(wù)的泛化能力,實(shí)現(xiàn)從語言描述和視頻示范到動(dòng)手操作的通用控制。
自變量機(jī)器人研發(fā)的WALL-A模型,則是世界上最大規(guī)模的端到端統(tǒng)一具身大模型。該模型突破了傳統(tǒng)分層架構(gòu)的限制,支持從原始傳感器信號(hào)到機(jī)器人動(dòng)作的縱向和橫向任務(wù)統(tǒng)一,展現(xiàn)出卓越的跨任務(wù)泛化能力。自變量機(jī)器人在不到一年半的時(shí)間內(nèi)完成了多輪融資,累計(jì)融資金額超過10億元,其堅(jiān)持的“大小腦統(tǒng)一的端到端大模型”路線備受投資機(jī)構(gòu)青睞。
隨著VLA模型的不斷發(fā)展,機(jī)器人技術(shù)正逐步邁向更加智能化、自主化的階段。未來,無論是在無網(wǎng)絡(luò)的工廠環(huán)境,還是在災(zāi)區(qū)廢墟等復(fù)雜場(chǎng)景中,機(jī)器人都將能夠憑借本地運(yùn)行的VLA模型,實(shí)現(xiàn)精準(zhǔn)作業(yè)和自主救援,為人類帶來更多便利和安全。