近日,字節(jié)跳動旗下的Seed團隊在機器人技術(shù)領(lǐng)域取得了重要突破,正式推出了全新版本的視覺語言行動(VLA)模型——GR-3,以及與之配套的通用雙臂移動機器人ByteMini。
GR-3模型的最大亮點在于其卓越的泛化能力,能夠迅速適應(yīng)新物體和新環(huán)境。這一特性使得GR-3不僅能夠理解包含抽象概念的語言指令,還能精細地操作柔性物體。更GR-3僅需少量的人類數(shù)據(jù)就能實現(xiàn)高效微調(diào),從而快速遷移至新任務(wù),極大地降低了成本和時間。與此前需要大量機器人軌跡訓練的VLA模型相比,GR-3無疑是一個巨大的進步。
為了實現(xiàn)這一突破,Seed團隊對GR-3的模型結(jié)構(gòu)進行了全面改進。新的模型結(jié)構(gòu)使得GR-3在處理長程任務(wù)和進行高靈巧度操作時表現(xiàn)出色,無論是雙手協(xié)同操作、柔性物體操作,還是融合底盤移動的全身操作,都能游刃有余。
GR-3的出色表現(xiàn)離不開其獨特的訓練方法。除了通過遙操作機器人收集的高質(zhì)量真機數(shù)據(jù)外,Seed團隊還創(chuàng)新性地引入了基于VR設(shè)備的人類軌跡數(shù)據(jù),以及公開可用的大規(guī)模視覺語言數(shù)據(jù)。這些多樣性數(shù)據(jù)的融合,為GR-3的訓練提供了豐富的素材,也是其區(qū)別于現(xiàn)有VLA模型的重要亮點之一。
作為GR-3的配套機器人,ByteMini同樣不容小覷。這款通用雙臂移動機器人具備高靈活性和高可靠性,專為GR-3這顆“大腦”量身打造。ByteMini全身擁有22個自由度,搭載了無偏置的7個自由度機械臂,手腕部分采用球形設(shè)計,能夠在狹小空間中完成各種精細操作。
在感知層面,ByteMini搭載了多顆攝像頭,實現(xiàn)了全方位無死角的監(jiān)控。其中,2個手腕攝像頭負責觀察細節(jié),頭部攝像頭則負責全局監(jiān)控。在運動層面,ByteMini采用了先進的全身運動控制(WBC)系統(tǒng),使得機器人在移動和操作過程中更加穩(wěn)定和流暢。更重要的是,ByteMini作為機器人本體搭載了GR-3模型,能夠在真實環(huán)境中高效處理復雜任務(wù)。
在實際應(yīng)用中,GR-3展現(xiàn)出了“心靈”、“手巧”和“泛化好”三大特點。在超長序列的餐桌整理任務(wù)中,GR-3能夠高魯棒性、高成功率地完成任務(wù),并嚴格遵循人類的分步指令。面對多件同類物品時,GR-3能夠準確執(zhí)行指令,如將多個杯子全部放入垃圾桶。若指令無效,GR-3則能保持不動,避免誤操作。
在復雜靈巧的掛衣服任務(wù)中,GR-3同樣表現(xiàn)出色。它能夠控制雙臂協(xié)同操作可形變的柔性物體,還能魯棒識別并整理不同擺放方式的衣服。即使衣服擺放混亂,GR-3也能穩(wěn)定應(yīng)對,順利完成掛衣任務(wù)。
從技術(shù)層面來看,GR-3采用了先進的MoT網(wǎng)絡(luò)結(jié)構(gòu),將“視覺-語言模塊”和“動作生成模塊”結(jié)合成了一個擁有40億參數(shù)的端到端模型。在數(shù)據(jù)訓練方面,GR-3突破了傳統(tǒng)機器人只學習“機器人數(shù)據(jù)”的局限,采用了三合一數(shù)據(jù)訓練法。通過同時從遙操作獲取的機器人數(shù)據(jù)、人類VR軌跡數(shù)據(jù)以及公開可用的圖文數(shù)據(jù)中學習知識,GR-3的訓練效果得到了顯著提升。
據(jù)Seed團隊透露,他們后續(xù)計劃進一步擴大模型規(guī)模和訓練數(shù)據(jù)量,并引入強化學習方法(RL),以進一步提升GR-3的泛化能力和突破現(xiàn)有模仿學習的局限。這一舉措無疑將為機器人技術(shù)的發(fā)展注入新的活力。