機器人領域近期迎來重要突破,兩家初創公司分別從不同角度驗證了規模效應對機器人智能發展的關鍵作用。Generalist AI公司率先發布GEN-0模型,通過27萬小時真實操作視頻訓練,首次在機器人領域建立起類似語言模型的擴展規律——隨著數據量和計算資源的增加,模型在下游任務中的表現呈現可預測的冪律提升。這一發現引發行業震動,標志著機器人智能可能步入與大語言模型相似的發展軌道。
緊隨其后,Physical Intelligence公司聯合佐治亞理工學院的研究團隊,在《視覺-語言-動作(VLA)模型的跨具身遷移能力》研究中證實:當模型在多樣化場景、任務和機器人形態上完成預訓練后,會突然獲得從人類視頻中學習技能并遷移至機器人執行的能力。這種能力在預訓練規模不足時無法顯現,即使采用精心設計的對齊機制也難以實現有效遷移。研究團隊通過極端簡化的訓練方案驗證了這一現象——將人類視頻視為"另一種機器人形態"進行聯合訓練,僅使用基礎軌跡預測和語言任務目標,完全摒棄顯式對齊技術。
實驗設計極具挑戰性:研究團隊刻意移除所有域適應模塊和手工對齊組件,僅保留最基本的聯合訓練框架。在微調階段,人類數據與機器人數據按1:1比例混合,通過逐步增加預訓練數據的多樣性(從25%到100%),觀察模型性能變化。結果顯示,當預訓練規模達到臨界點后,模型在四項泛化測試中的表現幾乎翻倍。特別是在雞蛋分揀任務中,聯合訓練模型將分揀準確率從57%提升至78%,平均每次多完成4個正確放置,成功從人類視頻中獲取了機器人數據中不存在的"分揀"概念。
這種能力涌現呈現出明顯的非線性特征。在梳妝臺整理任務中,50%預訓練規模下的模型從人類視頻中獲益有限,但當規模提升至75%后,性能開始穩定增長。通過分析模型視覺表征的t-SNE降維圖,研究團隊發現:隨著預訓練多樣性增加,人類數據與機器人數據的表征逐漸重疊,最終形成"具身無關"的中間表示。這種抽象能力使模型能夠自動將人類手臂運動與機械臂操作映射到語義相近的空間,從而消除形態差異帶來的障礙。
研究同時指出人類數據的局限性。在餐桌清理任務中,真實機器人數據仍顯著優于人類視頻,表明人類數據應作為重要補充而非完全替代。腕部相機的使用效果則呈現任務依賴性——在某些場景下能提升性能,但在其他場景中影響微弱。這些發現為數據采集策略提供了新思路:人類視頻采集的傳感器配置需根據具體任務特點進行優化設計。
行業對這項研究反應熱烈。Figure AI公司已宣布啟動"Go-Big"計劃,與房地產巨頭合作從十萬套住宅中采集人類生活視頻,聲稱實現從純人類視頻到機器人導航的零樣本遷移。但新研究同時設置重要前提:要有效利用人類視頻,必須先構建足夠強大的預訓練基礎。這意味著團隊需要先投入資源采集多樣化機器人數據,才能"解鎖"從人類視頻中學習的能力。當前研究使用的人類數據量(每任務3-5小時)仍屬有限,未來如何利用非結構化人類視頻數據仍是開放問題,但研究已確立重要基線:在適當預訓練條件下,少量人類視頻即可產生顯著遷移效果。
深入分析發現,多樣化預訓練迫使模型發展出抽象能力,這種能力恰好是跨越人機鴻溝的關鍵。當模型不再依賴特定視覺外觀或運動學參數,而是捕捉更高層級的語義信息時,人類與機器之間的形態差異就變得不再不可逾越。這種規模效應不僅體現在參數量上,更關鍵的是預訓練數據在場景、任務和具身形態三個維度的多樣性。對于正在規劃數據采集策略的團隊而言,這提示數據多樣性可能比單純的數據量更為重要。










