在近期落幕的一場全球人工智能與機器人領(lǐng)域的重要會議上,具身智能成為行業(yè)關(guān)注的焦點。這一連接虛擬模型與物理世界的關(guān)鍵賽道,正吸引著眾多企業(yè)和科研力量投身其中。深圳極數(shù)迭代科技創(chuàng)始人佟顯喬博士在會上圍繞具身智能數(shù)據(jù)領(lǐng)域進行了深度分享,為行業(yè)發(fā)展提供了新的思路。
當前,語言大模型憑借海量數(shù)據(jù)實現(xiàn)了爆發(fā)式增長,而具身智能與機器人領(lǐng)域卻面臨著數(shù)據(jù)供給的巨大缺口。現(xiàn)有的數(shù)據(jù)集規(guī)模僅在數(shù)千至十幾萬小時,與語言模型的海量數(shù)據(jù)儲備差距明顯。數(shù)據(jù)作為具身智能發(fā)展的核心基石,其稀缺性、高成本與碎片化問題,嚴重制約了機器人泛化能力的提升。佟顯喬博士認為,盡管目前具身數(shù)據(jù)量較少,但無論未來具身模型如何發(fā)展、本體怎樣迭代,數(shù)據(jù)始終是基石,未來幾年數(shù)據(jù)體量將大幅增長,具身數(shù)據(jù)服務(wù)有望成為機器人領(lǐng)域確定性的數(shù)據(jù)服務(wù)機會。
具身智能的數(shù)據(jù)瓶頸主要體現(xiàn)在三個方面。從泛化能力來看,類比 Scaling Law,目前機器人的泛化能力遠不足,模仿學習需適配不同本體、數(shù)據(jù)和場景,但現(xiàn)有的數(shù)據(jù)采集和空間泛化能力嚴重不足。研究表明,泛化能力與數(shù)據(jù)數(shù)量呈冪律關(guān)系,現(xiàn)有數(shù)據(jù)量難以讓機器人達到較好的任務(wù)成功率,且在機器人領(lǐng)域 Scaling Law 依然存在,更多數(shù)據(jù)大概率能帶來更好效果,所以解決數(shù)據(jù)需求瓶頸迫在眉睫。從技術(shù)路線角度,無論是“小腦加大腦”的分層路線,還是端到端的數(shù)據(jù)路線,對具身數(shù)據(jù)的需求都十分龐大。“大腦”負責理解物理世界常識和人類指令、拆分復雜任務(wù);“小腦”或技能層面涉及抓取、按壓等動作,需要人類示教數(shù)據(jù)和機器人感知數(shù)據(jù),且要覆蓋不同場景,很多數(shù)據(jù)還需人類標注;端到端訓練是大腦與小腦的整合,不同流派方法不同,但都需要不同數(shù)據(jù)、人的參與以及不同場景和任務(wù)的泛化。從定性分析,滿足需求需大腦和小腦數(shù)據(jù)乘以不同機器人類別,而跨本體數(shù)據(jù)復用難,放大人類標注演示或做更多泛化任務(wù)場景,成本都很高。因此,成本飛漲、模型跨本體能力弱導致數(shù)據(jù)孤島且標準難統(tǒng)一、難以評估數(shù)據(jù)實際能力,成為具身智能數(shù)據(jù)面臨的主要瓶頸。
具身智能數(shù)據(jù)本身是一項工程化工作,涵蓋從底層采集設(shè)計、數(shù)據(jù)標準確立,到真實環(huán)境和仿真環(huán)境下的采集部署等一系列環(huán)節(jié)。目前數(shù)據(jù)集種類多樣,包括操作類、移動類、邏輯語義類、導航類等,但各做各的,尚未出現(xiàn)能將所有數(shù)據(jù)聯(lián)系起來的通用模型。在數(shù)據(jù)采集方面,真機采集方式眾多,如遙操、示教、用末端執(zhí)行器動捕人類視覺數(shù)據(jù)學習、遙操同構(gòu)的遙操視學光冠操作等,不同方式在不同維度各有優(yōu)劣,不同團隊和公司都在探索。仿真數(shù)據(jù)在軌跡合成、姿態(tài)合成、預測生成、決策生成等方面也有不同探索,部分團隊認為仿真數(shù)據(jù)可能比真機數(shù)據(jù)效果更好。
針對這些問題,目前沒有通用解法。需針對不同場景做系統(tǒng)設(shè)計,在高效性和可靠性間找到平衡,確立數(shù)據(jù)標準,降低真機、真實世界和仿真數(shù)據(jù)成本,提升效率,優(yōu)化不同機器人和場景的部署。對于數(shù)據(jù)孤島問題,由于不同數(shù)據(jù)在有效性和通用性上存在差異,如遙操固定真機數(shù)據(jù)質(zhì)量高但通用性差,人類視頻數(shù)據(jù)量大但訓練模型效果差,目前的解決方案是應(yīng)收盡收。
深圳極數(shù)迭代科技有限公司與深圳市人工智能與機器人研究院合作,推出了具身智能數(shù)據(jù)平臺 AIRSPEED。該平臺致力于兼容不同機器人本體和遙操設(shè)備,通過不同的機器人接口、遙操接口、仿真接口,實現(xiàn)真機、仿真以及不同機器人之間的良好兼容性,憑借高軟硬件和技術(shù)兼容性實現(xiàn)生產(chǎn)柔性化,高效生產(chǎn)數(shù)據(jù)。平臺架構(gòu)盡量減少用戶編程需求,用戶配置好接口后,通過一個接口就能實現(xiàn)全流程順暢的數(shù)據(jù)生產(chǎn),旨在成為第三方平臺,減少客戶適配不同機器人和數(shù)據(jù)的復雜工作。
該平臺不僅是一個技術(shù)解決方案,更是一個管理解決方案平臺。當數(shù)據(jù)達到一定規(guī)模后,需要管理大規(guī)模采集員、標注員,進行任務(wù)調(diào)度、數(shù)據(jù)處理和標注等系統(tǒng)工程,這些都能通過平臺高效管理。平臺針對真機數(shù)據(jù)提出“萬物皆可達”,適配不同采集方案,從遙操到示教類,分三個階段兼容,提供統(tǒng)一接口;針對仿真數(shù)據(jù)提出“萬物皆可生”,從軌跡合成、資產(chǎn)合成、決策生成和預測生成四個維度,統(tǒng)一管理不同仿真平臺和資產(chǎn)。平臺引入 AI Agent 概念,減輕任務(wù)管理員等工作負擔,加入大模型用于自動標注、自動資源管理和訓練模型評測,旨在打造具身智能數(shù)據(jù)工具鏈,助力高效訓練模型和快速部署。
目前,該平臺在真機和仿真方面都具備了快速迭代模型的能力,在真實世界數(shù)據(jù)集構(gòu)建上實現(xiàn)了 30 多倍加速,在仿真方面有 3.5 倍加速,期望以飛輪效應(yīng)不斷提升模型迭代效率。其數(shù)據(jù)管理平臺以數(shù)據(jù)集交付為中心,分開管理任務(wù)、設(shè)備、標注、用戶,不同客戶可直接在平臺上進行任務(wù)管理和生成,支持多種遙操作、動捕和 UMI 等設(shè)備接入,實現(xiàn)統(tǒng)一數(shù)據(jù)管理。目前,平臺已與遙操設(shè)備合作伙伴、數(shù)據(jù)采集盒子供應(yīng)商以及不同機器人廠商開展合作。公司專注于機器人數(shù)據(jù)、具身數(shù)據(jù)探索,以 AIRSPEED 平臺為核心產(chǎn)品提高數(shù)據(jù)效率,還著有相關(guān)書籍《具身智能數(shù)據(jù)工程》。用戶使用平臺時,可以數(shù)據(jù)集為中心建立不同數(shù)據(jù)集,選擇本體和遙操設(shè)備,批量建立任務(wù)后發(fā)給采集員采集數(shù)據(jù),采集完上傳平臺由標注員標注,審核員審核后導出標準數(shù)據(jù)集用于訓練模型,平臺支持多種機器人和遙操設(shè)備,也支持在仿真環(huán)境進行遙操和數(shù)據(jù)采集。











