機器人學習領域迎來重大突破——浙江大學聯合南京大學、香港科技大學的研究團隊,開發出一種僅通過靜態圖像就能讓機器人掌握復雜運動技能的新方法。這項發表于arXiv預印本平臺(論文編號:arXiv:2510.05057v1)的研究,為機器人運動學習開辟了全新路徑。
傳統機器人學習模式如同教孩子騎自行車,需要讓機器人觀看大量連續動作視頻,從一幀幀畫面中學習動作銜接。但新研究顛覆了這一認知:就像魔術師僅憑表演前后的場景就能還原整個過程,機器人通過觀察兩張靜態圖片的差異,就能推斷出完整的運動軌跡。研究團隊開發的StaMo系統,通過將復雜場景壓縮為兩個高密度數字令牌,利用令牌間的差異自然生成運動指令。
實驗數據顯示,集成StaMo的機器人系統在LIBERO基準測試中性能提升14.3%,真實環境操作成功率提高30%。這種提升猶如給汽車更換了更高效的引擎,不僅運行速度加快,能耗反而降低。研究團隊指出,該方法突破了傳統視頻學習對連續時序數據的依賴,通過構建緊湊的狀態表示,實現了從"看電影"到"看照片"的學習范式轉變。
StaMo系統的核心在于其獨特的壓縮-重建機制。系統采用DINOv2視覺編碼技術,將包含機器人、物體、環境的復雜圖像壓縮為兩個1024維向量,相當于將百科全書內容濃縮成兩個"超級句子"。基于擴散變換器的智能重建器,則能根據這兩個向量重建原始場景,并隱含理解物體間的物理關系。研究團隊發現,兩個不同時刻向量的差異,恰好編碼了狀態轉換所需的運動信息。
在模擬環境測試中,StaMo使OpenVLA模型在空間推理、物體操作、目標導向、長序列任務四個類別中的成功率分別提升12.1%、11.2%、10.6%、25.4%。真實世界實驗中,短期任務成功率從30%躍升至72%,長期任務成功率從20%提升至62%。特別值得注意的是,這種性能提升幾乎未增加計算負擔,系統運行頻率仍保持在4.02Hz的高效水平。
技術細節顯示,StaMo采用分層壓縮策略:DINOv2模型先提取圖像高級特征,再通過輕量級變換器網絡壓縮為兩個向量。解碼器部分利用預訓練的Stable Diffusion 3模型,通過流匹配目標函數直接學習最優傳輸路徑,避免了傳統擴散模型的迭代去噪過程。損失函數結合重建損失和預測損失,確保模型既保留足夠信息又學習有用動態。
與傳統方法相比,StaMo展現出顯著優勢。基于視頻的方法雖能捕捉時序信息,但計算復雜度高、數據需求量大;基于狀態的方法雖計算高效,但表達能力有限。StaMo通過精心設計的編碼器,在緊湊性和表達性之間找到平衡點。共訓練實驗表明,使用相同演示數據時,StaMo通過四個偽動作序列就能將成功率從62.9%提升至84.6%。
這項技術具有廣泛的應用前景。在家庭服務領域,機器人可通過少量靜態圖像快速學習新任務;工業自動化中,生產線能快速適應新產品;醫療機器人領域,其精確性和可解釋性為安全操作提供保障。研究團隊特別指出,StaMo在真實環境中的主要失敗模式發生在精密抓取場景,預測動作有時會導致機械臂下降深度不足。
面向未來,研究團隊計劃從四個方向深化研究:提升精密操作能力、適應動態環境、優化移動平臺計算效率、擴展數據多樣性。他們認為,將StaMo與大語言模型、強化學習、傳感器融合等技術結合,可能產生更大的協同效應。這項研究不僅推進了機器人技術發展,更為人工智能領域重新思考學習與表示的本質提供了新視角。











