在具身智能技術加速突破的當下,行業長期面臨的生態碎片化問題正成為制約發展的關鍵瓶頸。作為機器人感知-決策-執行的核心技術路徑,視覺-語言-動作(VLA)模型的研究因開發工具鏈割裂而陷入困境。不同研究機構采用差異化深度學習框架、模型架構和訓練流程,導致算法復現困難、工程協作低效,研究者常需耗費大量時間配置多套實驗環境,模型性能的公平性與可重復性遭受質疑。
更具挑戰性的是,當前主流VLA策略仍依賴過時的模型架構。以OpenVLA及其衍生模型CogACT、OFT為例,其底層均基于Llama2架構,未能充分利用Qwen3等新一代模型更強的表征能力。這種技術代差導致行業看似創新不斷,實則仍在舊技術框架內循環,學術研究與工程落地的重復建設成為具身智能規模化發展的隱形障礙。
針對上述痛點,Dexmal原力靈機團隊推出開源VLA工具箱Dexbotic,構建了基于PyTorch框架的標準化科研基礎設施。該工具箱通過"統一架構+高性能預訓練模型+實驗腳本化"的創新設計,實現了多策略復現、跨機器人數據整合與開發流程自動化三大突破。開發者僅需一次環境配置,即可在統一代碼庫中復現π0、OFT、CogACT等主流算法,模型性能比較與算法迭代效率顯著提升。
在數據標準化層面,Dexbotic開發的Dexdata格式為UR5、Franka等主流機器人建立了統一數據規范。該格式將視頻與文本信息分別存儲于.mp4文件與JSONL目錄,通過index_cache.json元數據文件實現高效數據訪問。相比傳統格式,Dexdata在數據加載與訓練階段可節省最高40%的存儲空間,其可擴展架構已支持8種單臂機器人與3種雙臂機器人的數據復用,未來將持續擴展適配范圍。
預訓練模型方面,Dexbotic提供離散型與連續型雙版本基座模型。Dexbotic-Base采用CLIP視覺編碼器與Qwen2.5語言模型架構,融合Open-X Embodiment、RLBench等多源仿真數據與真實機械臂數據,支持π0、MemoryVLA等離散動作策略的微調開發。針對連續動作場景的Dexbotic-CogACT則提供單臂/雙臂版本,雙臂模型整合了8種真實機器人的52個任務數據與ALOHA雙臂數據集,支持多視角輸入與復雜操作任務。
實證測試顯示,Dexbotic在多個主流仿真基準中表現優異。在SimplerEnv的"堆疊方塊"等任務中,CogACT策略性能提升18.2%,DB-OFT版本提升達46.2%;CALVIN長時序任務里,DB-CogACT平均任務長度較原版增加0.81;ManiSkill2抓取任務中,DB-OFT成功率提升42%。真實機器人實驗中,UR5e等平臺完成餐盤擺放、按鈕按壓等任務的成功率達80%-100%,但在紙張撕碎等精細操作中仍存在改進空間。
硬件生態建設方面,團隊同步推出開源機器人平臺DOS-W1。該平臺采用全開源設計方案,公開文檔、BOM清單與設計圖紙,通過快拆結構與模塊化設計降低使用與維護成本。其人體工學設計提升操作舒適度,支持高效數據采集,未來將通過產業鏈共創擴展功能模塊,構建開放硬件生態。
為推動技術落地,Dexbotic與RoboChallenge平臺達成合作,提供基于主流機器人的遠程真機實驗與標準化測試環境。開發者可將基于Dexbotic開發的策略提交至該平臺,通過Table30桌面操作基準測試集進行性能驗證。團隊計劃持續擴展預訓練模型庫,集成仿真到真實世界的遷移學習工具鏈,并建立社區驅動的模型貢獻機制,邀請全球開發者參與生態共建。











