全球首個面向真實物理環境的大規模多任務機器人操作基準測試平臺RoboChallenge正式亮相。該平臺由Dexmal原力靈機與Hugging Face聯合發起,旨在為視覺-語言-動作模型(VLAs)提供標準化、可復現的真實場景評估體系,推動具身智能技術從實驗室走向實際應用。
針對機器人領域長期存在的評估難題,RoboChallenge構建了開放共享的測試框架。平臺集成UR5、Franka Panda、Aloha及ARX-5四類主流機械臂,每臺設備配備2-3臺RGB-D相機,通過統一軟件棧實現視覺系統與機器人本體的高效協同。所有硬件均完成數月真實任務驗證,確保7×24小時穩定運行,為研究者提供可靠的遠程測試環境。
在測試方法論上,平臺創新提出"視覺輸入匹配"技術。系統從演示數據中提取關鍵幀作為參考圖像,實時疊加于測試畫面,引導操作人員精確復現初始場景。這種標準化方案不僅降低人為誤差,其穩定性更超越傳統依賴經驗人員的模式,為大規模評測奠定基礎。測試集包含約1000條演示數據,支持基線模型的任務級微調。
作為核心測試組件的Table30桌面操作基準集,包含30個精心設計的日常任務場景。該測試集從解決方案復雜度、機器人構型、環境特征和物體屬性四個維度構建評估體系,涵蓋精準抓取、空間推理、多視角協同、雙臂協作等12項核心能力。評分機制突破傳統二值化判斷,采用進度評分系統,對復雜任務認可階段性進展,對簡單任務優化完成效率。
平臺采用無容器化服務架構,研究者通過標準化API即可調用測試資源,無需提交模型文件或Docker鏡像。雙向異步控制機制支持動作指令與圖像獲取的分離處理,毫秒級時間戳確保多傳感器數據同步。智能調度系統提供任務狀態接口,支持模型預加載與多任務并行管理,顯著提升測試效率。
在首輪評測中,主流開源VLA模型均面臨嚴峻挑戰。測試數據顯示,即便最先進的Pi0.5模型也難以在全部任務中取得高成功率,充分驗證該基準集的鑒別能力。平臺要求參與者通過Hugging Face獲取示范數據集,支持通用型(多任務聯合訓練)和微調型兩種訓練模式,評估結果自動合并至算法條目排名。
為促進技術共享,RoboChallenge完全開放測試平臺和中間數據。研究者可基于公開演示數據微調策略,通過平臺API提交模型進行遠程評測。評估結果包含機器日志與操作視頻,支持rerun.io可視化分析。平臺設立多維度排行榜,定期舉辦挑戰賽和技術研討會,鼓勵社區參與任務設計與標準制定。
目前平臺已部署云端測試服務,突破硬件資源限制,實現"無機器人實驗"模式。未來規劃包括擴展移動機器人和靈巧操作裝置等硬件平臺,增加動態環境適應、長期規劃等挑戰性測試維度,并延伸至力控感知、人機協作等評估方向,持續推動具身智能技術在真實場景中的落地應用。











