李飛飛團隊聯合英偉達等機構,正式推出了一項針對具身智能領域的全新挑戰賽——BEHAVIOR家務挑戰賽。這一賽事旨在通過標準化任務和大規模數據集,推動機器人完成家務任務的能力,其設計理念與影響力被認為可能媲美當年的ImageNet。
參賽者需使用星海圖R1 Pro機器人作為硬件平臺,在虛擬家庭環境BEHAVIOR-1K中完成50項涵蓋烹飪、清潔、物品整理等場景的任務。為降低參與門檻,主辦方提供了約1200小時的專家操作軌跡數據,支持模仿學習等算法開發。賽事設置兩條賽道:標準賽道要求機器人僅依賴視覺感知決策,特權賽道則允許獲取環境坐標等額外信息。
評分體系以任務完成度為核心,既考核"將餐具放入洗碗機"等完整操作的成功率,也評估"拿起盤子但未放置"等中間狀態的得分。次要指標包括模擬耗時、移動距離、機械臂動作次數等,最終排名依據平均任務完成率確定。賽事設置1000美元獎金及RTX 5080顯卡等獎勵,作品提交截止日期為2025年11月15日。
在近期舉辦的專題研討中,李飛飛與英偉達團隊負責人Jim Fan等專家,深入探討了賽事設計的核心邏輯。她指出,當前機器人學習領域存在三大痛點:缺乏統一評價標準、任務設計碎片化、訓練數據規模不足,這些問題與2009年ImageNet誕生前的計算機視覺領域極為相似。當年ImageNet通過構建百萬級圖像數據庫,成功推動了深度學習革命,此次BEHAVIOR挑戰賽正是希望復制這一成功模式。
賽事設計凸顯三大特色:其一,堅持"人類中心"原則,在任務定義、數據篩選和倫理規范中始終確保技術發展符合人類需求;其二,首次明確家庭機器人能力標準,要求同時具備跨房間導航、雙手協作、長期規劃等復合能力;其三,構建超大規模訓練場景,覆蓋1000種家庭活動,單個任務平均需要6.6分鐘連續操作。這種系統化設計使BEHAVIOR具備成為具身智能領域基準測試的潛力。
隨著賽事啟動,家務場景正成為檢驗具身智能技術的重要試金石。業內人士觀察到,近期多個具身智能項目均將家務作為核心測試場景,這種趨勢與大語言模型通過解題測試評估能力形成有趣呼應。當語言模型的檢測標準是完成數學題時,物理世界機器人的檢測標準正轉向完成家務任務。











