近年來,人形機(jī)器人技術(shù)迎來快速發(fā)展期,基于視覺-語(yǔ)言-動(dòng)作(VLA)模型的系統(tǒng)已能勝任多種家務(wù)任務(wù),展現(xiàn)出較強(qiáng)的適應(yīng)性和可靠性。然而,雙足人形機(jī)器人的發(fā)展始終面臨一個(gè)關(guān)鍵障礙:缺乏覆蓋全身動(dòng)作的高質(zhì)量演示數(shù)據(jù)。傳統(tǒng)遠(yuǎn)程操作數(shù)據(jù)收集方式不僅成本高昂,且效率低下,難以滿足家庭環(huán)境中多樣化任務(wù)的需求。
針對(duì)這一難題,浙江大學(xué)與西湖大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一項(xiàng)名為TrajBooster的創(chuàng)新方案。該框架通過利用輪式機(jī)器人豐富的操作數(shù)據(jù),結(jié)合軌跡重定向技術(shù),大幅提升了雙足人形機(jī)器人的動(dòng)作學(xué)習(xí)效率。實(shí)驗(yàn)表明,僅需10分鐘目標(biāo)機(jī)器人的真實(shí)數(shù)據(jù),即可實(shí)現(xiàn)復(fù)雜的全身操控任務(wù),顯著增強(qiáng)了機(jī)器人的動(dòng)作空間理解能力和零樣本任務(wù)遷移能力。
TrajBooster的核心思路在于將6D末端執(zhí)行器軌跡(3D位置+3D旋轉(zhuǎn))作為與機(jī)器人形態(tài)無關(guān)的通用接口。研究團(tuán)隊(duì)發(fā)現(xiàn),盡管機(jī)器人形態(tài)各異,但完成任務(wù)時(shí)末端執(zhí)行器的運(yùn)動(dòng)軌跡具有高度一致性。例如,無論是輪式還是雙足機(jī)器人,拿起杯子都需要讓“手”沿相似路徑接近并抓取。基于這一洞察,TrajBooster構(gòu)建了一個(gè)“真實(shí)→模擬→真實(shí)”的閉環(huán)流程:首先從輪式機(jī)器人操作數(shù)據(jù)中提取語(yǔ)言指令、視覺觀察和軌跡;隨后在仿真環(huán)境中將這些軌跡轉(zhuǎn)化為雙足機(jī)器人的全身動(dòng)作;最后用生成的數(shù)據(jù)預(yù)訓(xùn)練VLA模型,并通過少量真實(shí)數(shù)據(jù)微調(diào)即可部署。
為實(shí)現(xiàn)軌跡的精準(zhǔn)重定向,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)分層控制模型。上層采用逆運(yùn)動(dòng)學(xué)模塊,直接根據(jù)目標(biāo)手腕位姿計(jì)算臂部關(guān)節(jié)角度;下層則通過分層強(qiáng)化學(xué)習(xí)策略控制腿部和平衡。具體而言,管理者策略負(fù)責(zé)判斷身體移動(dòng)方式,如調(diào)整軀干高度或基座速度;執(zhí)行者策略則將這些高階命令轉(zhuǎn)化為12條腿部關(guān)節(jié)的具體動(dòng)作。團(tuán)隊(duì)還開發(fā)了“協(xié)調(diào)在線DAgger”算法,通過梯度下降優(yōu)化策略,實(shí)現(xiàn)了比傳統(tǒng)方法更高效的軌跡跟蹤。
在模型訓(xùn)練階段,TrajBooster采用了兩階段策略。后預(yù)訓(xùn)練階段將重定向數(shù)據(jù)與源數(shù)據(jù)中的語(yǔ)言和視覺觀察組合,構(gòu)成新的三元組,對(duì)預(yù)訓(xùn)練VLA模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,使其初步理解目標(biāo)機(jī)器人的動(dòng)作空間。后訓(xùn)練階段則僅需10分鐘真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),彌合模擬與現(xiàn)實(shí)之間的差距。這種設(shè)計(jì)將耗時(shí)的動(dòng)作學(xué)習(xí)階段轉(zhuǎn)移至仿真環(huán)境,大幅降低了數(shù)據(jù)收集成本。
實(shí)驗(yàn)在宇樹Unitree G1雙足機(jī)器人上驗(yàn)證了TrajBooster的卓越性能。在“抓取米老鼠”“整理玩具”等任務(wù)中,經(jīng)過后預(yù)訓(xùn)練的模型性能顯著優(yōu)于直接使用大量真實(shí)數(shù)據(jù)訓(xùn)練的模型。當(dāng)目標(biāo)物體位置發(fā)生變化時(shí),經(jīng)過后預(yù)訓(xùn)練的模型成功率高達(dá)80%,而未經(jīng)過后預(yù)訓(xùn)練的模型則完全無法適應(yīng)。軌跡分析顯示,未使用后預(yù)訓(xùn)練的模型只能死記硬背訓(xùn)練軌跡,而經(jīng)過后預(yù)訓(xùn)練的模型能靈活生成新軌跡以適應(yīng)新位置。
更令人驚喜的是,經(jīng)過后預(yù)訓(xùn)練的模型實(shí)現(xiàn)了零樣本技能遷移。在真實(shí)數(shù)據(jù)中從未出現(xiàn)的“傳遞水杯”任務(wù)中,該模型無需任何額外訓(xùn)練即可完成,表明從輪式數(shù)據(jù)中繼承的“遞東西”技能已成功通過軌跡遷移至雙足機(jī)器人。這一成果證明了TrajBooster框架的有效性,為解決機(jī)器人數(shù)據(jù)稀缺問題提供了全新思路。