在機器人技術領域,五指靈巧手被視為實現類人操作的關鍵突破口。無論是擰開瓶蓋還是精準傳遞物品,這類操作對機器人靈活性提出了極高要求。然而,一個核心難題始終制約著技術落地——訓練數據的極度匱乏。
與依靠海量數據驅動的大語言模型,或通過大規模路測積累經驗的自動駕駛系統不同,靈巧手操作數據的獲取堪稱"不可能任務"。傳統方法暴露出多重局限:人工規劃難以協調五指復雜動作,大語言模型僅能提供粗略方向,而遙操作采集成本高昂且難以形成規模化數據集。即便采用強化學習,機器人也常因探索效率低下而生成僵硬、抖動的動作軌跡。
現有數據集的局限性更為突出。多數僅針對單一抓取動作設計,當涉及傾倒液體、雙手交接等復雜任務時便束手無策。軌跡回放技術雖能在固定場景微調位置,但無法創造新策略,數據多樣性嚴重不足。這種"實驗室孤島"現象,導致靈巧手技術長期難以突破到真實應用場景。
轉折點出現在北京大學、哈爾濱工業大學與PsiBot靈初智能團隊的聯合研究中。他們提出的DexFlyWheel框架,以顛覆性思路破解了數據困局——僅需1條人類演示視頻,即可啟動"數據飛輪"生成海量多樣化訓練數據。這項被NeurIPS 2025會議選為Spotlight的研究(入選率僅3.2%),揭示了靈巧操作數據生成的全新范式。
研究團隊發現,不同物體間的操作差異具有規律性:形狀相似的物體(如蘋果與橙子),僅需微調手指角度和力度即可完成抓取。基于這一洞察,他們構建了模仿學習與殘差強化學習的協同機制。前者確保動作自然流暢,后者負責精準適配新場景,二者形成"粗調-細調"的閉環優化。
更具創新性的"數據飛輪"循環機制,通過VR采集的1條種子演示啟動:擴散策略模型首先學習人類操作模式,生成初始軌跡;殘差強化學習在此基礎上微調,形成適應新物體的策略;仿真環境中的軌跡驗證又為下一輪訓練提供數據。這種滾雪球效應使數據量呈指數級增長——1條演示可擴展出500條軌跡,場景復雜度提升214倍,物體種類從1種增至20種。
實驗數據驗證了框架的優越性:在單手抓取、雙手交接等任務中,數據生成成功率達89.8%,較傳統軌跡回放提升顯著;生成500條軌跡僅需2.4小時,效率是人工演示的1.83倍。更關鍵的是,策略在復雜測試集中的成功率從16.5%躍升至81.9%,通過數字孿生技術部署到實體機器人后,雙手提起任務成功率仍保持78.3%。
這項突破的意義不僅在于數據量的提升,更在于開創了"數據自我進化"的新路徑。當前框架雖尚未集成觸覺感知模塊,但研究團隊已規劃將其作為下一階段重點。若能解決觸覺反饋與自動化獎勵設計問題,機器人將有望掌握組裝精密零件等更高階技能,向通用靈巧手目標邁出關鍵一步。











