字節(jié)跳動(dòng)旗下的Seed團(tuán)隊(duì)在7月22日宣布了兩項(xiàng)重要成果:一款名為GR-3的高性能視覺語(yǔ)言動(dòng)作(VLA)模型,以及一款與之配套的通用雙臂移動(dòng)機(jī)器人ByteMini。這兩款產(chǎn)品的發(fā)布,標(biāo)志著Seed團(tuán)隊(duì)在機(jī)器人智能化領(lǐng)域邁出了重要一步。
GR-3模型的最大亮點(diǎn)在于其卓越的泛化能力。與以往需要大量機(jī)器人軌跡數(shù)據(jù)訓(xùn)練的VLA模型不同,GR-3僅需少量人類數(shù)據(jù)即可實(shí)現(xiàn)高效微調(diào),迅速適應(yīng)新任務(wù)和新物體。這意味著,GR-3能夠快速“學(xué)習(xí)”并理解包含抽象概念的語(yǔ)言指令,從而在復(fù)雜多變的環(huán)境中展現(xiàn)出強(qiáng)大的適應(yīng)性。GR-3還能精細(xì)地操作柔性物體,這一能力在以往的VLA模型中并不常見。
GR-3在處理長(zhǎng)程任務(wù)和高靈巧度操作方面也表現(xiàn)出色。這得益于其改進(jìn)的模型結(jié)構(gòu),使得GR-3能夠同時(shí)處理雙手協(xié)同操作、柔性物體操作以及融合底盤移動(dòng)的全身操作等多種復(fù)雜任務(wù)。這種多任務(wù)處理能力,使得GR-3在實(shí)際應(yīng)用中具有更高的靈活性和實(shí)用性。
為了實(shí)現(xiàn)GR-3的這些能力,Seed團(tuán)隊(duì)采用了一種多樣的模型訓(xùn)練方法。他們不僅收集了遙操作機(jī)器人獲取的高質(zhì)量真機(jī)數(shù)據(jù),還通過(guò)用戶授權(quán)征集了基于VR設(shè)備的人類軌跡數(shù)據(jù),以及公開可用的大規(guī)模視覺語(yǔ)言數(shù)據(jù)。這些多樣性數(shù)據(jù)的融合,為GR-3的訓(xùn)練提供了豐富的“營(yíng)養(yǎng)”,使其能夠在復(fù)雜多變的環(huán)境中快速學(xué)習(xí)和適應(yīng)。
而與GR-3配套的ByteMini機(jī)器人,則是一款高靈活性、高可靠性的通用雙臂移動(dòng)機(jī)器人。這款機(jī)器人專為GR-3設(shè)計(jì),搭載了無(wú)偏置7個(gè)自由度機(jī)械臂和22個(gè)自由度全身運(yùn)動(dòng)系統(tǒng)。機(jī)械臂手腕采用球形設(shè)計(jì),能夠在狹小空間內(nèi)完成各種精細(xì)操作。同時(shí),ByteMini還搭載了多顆攝像頭和全身運(yùn)動(dòng)控制系統(tǒng)(WBC),使其能夠高效地在真實(shí)環(huán)境中處理復(fù)雜任務(wù)。
在實(shí)際應(yīng)用中,GR-3和ByteMini的組合展現(xiàn)出了驚人的表現(xiàn)。在超長(zhǎng)序列的餐桌整理任務(wù)中,GR-3能夠高魯棒性、高成功率地完成任務(wù),并嚴(yán)格遵循人類分步指令。在復(fù)雜靈巧的掛衣服任務(wù)中,GR-3能夠控制雙臂協(xié)同操作可形變?nèi)嵝晕矬w,并魯棒識(shí)別并整理不同擺放方式的衣服。在各類物體抓取放置任務(wù)中,GR-3能夠泛化到抓取未見過(guò)的物體,并理解包含復(fù)雜抽象概念的指令。
從技術(shù)層面來(lái)看,GR-3采用了MoT的網(wǎng)絡(luò)結(jié)構(gòu),將“視覺-語(yǔ)言模塊”和“動(dòng)作生成模塊”結(jié)合成了一個(gè)40億參數(shù)的端到端模型。這種結(jié)構(gòu)使得GR-3在處理復(fù)雜任務(wù)時(shí)更加高效和準(zhǔn)確。同時(shí),GR-3的數(shù)據(jù)訓(xùn)練方法也突破了傳統(tǒng)機(jī)器人的局限,采用了三合一數(shù)據(jù)訓(xùn)練法,從多種數(shù)據(jù)源中學(xué)習(xí)知識(shí),進(jìn)一步提升了其泛化能力和適應(yīng)性。