具身智能領域迎來重大突破,全球首個完全基于真實工廠場景的人類中心數據集Egocentric-10K正式開源。該數據集包含10億幀視頻畫面,由2153名工人在真實生產環境中累計工作一萬小時采集而成,總視頻片段達19.2萬個,數據規模達16.4TB,是現有同類數據集EPIC-KITCHENS的100倍。
與傳統家庭場景數據集不同,Egocentric-10K首次將數據采集場景擴展至工業制造領域。工人們佩戴頭戴式攝像設備,在抓取、組裝等操作過程中自然錄制視頻,設備可捕捉128°×67°視野范圍、1080p分辨率、30幀/秒的高清畫面。這種采集方式使數據集在手部可見性和操作密度指標上達到行業領先水平,為機器人學習精細操作提供了更接近真實工業環境的訓練素材。
開源僅三天,該數據集在Hugging Face平臺的下載量便突破1.3萬次,迅速登頂趨勢榜單。盡管當前版本僅包含RGB視頻信息,暫未集成深度、音頻、觸覺等多模態數據,但項目團隊透露正在研發專用記錄設備。根據Build AI官網披露的計劃,2026年將在深圳制造工廠量產數百萬副智能眼鏡,實現全球數據采集網絡覆蓋,屆時可能補充更多模態信息。
針對數據實用性爭議,項目團隊回應稱,雖然工業場景存在操作重復性較高的問題,但通過覆蓋電子裝配、精密加工等20余個細分領域,已確保數據具備足夠多樣性。關于人類操作經驗向機器人遷移的難題,團隊指出其核心優勢在于數據采集成本低、擴展速度快,相比真機數據采集效率提升數十倍,這種規模化優勢可能成為突破機器人學習瓶頸的關鍵。
這個引發行業關注的項目背后,站著一位年僅18歲的創業者Eddy Xu。這位哥倫比亞大學輟學生半年前放棄超2500萬美元股權投資,創立Build AI公司專注構建可擴展的人類中心數據集。他的創業履歷頗為亮眼:13歲在車庫創辦首家公司,曾開發國際象棋智能眼鏡(雖因爭議下架但獲得技術關注),更推出AI流量預測工具CrowdTest——該產品通過模擬用戶反應進行推文效果預測,上線5小時收入破萬,24小時內總收入達3萬美元,即使定價高達每月1000美元仍供不應求。
在商業競賽領域,這位少年同樣戰績斐然:曾斬獲十項全能商業世界錦標賽冠軍,在20萬參賽者中脫穎而出;教育科技領域的創業項目更在三個月內積累17.8萬用戶后成功退出。其最新力作Egocentric-10K選擇與特斯拉、它石智航等企業相同的技術路線,試圖通過大規模第一視角人類操作數據,破解機器人靈巧操作難題。這場由少年發起的智能革命,正在重新定義機器人學習的數據邊界。











