在人工智能領域,物理AI正成為備受矚目的新方向。自2020年這一概念被正式提出后,其發展軌跡始終與行業期待緊密相連。去年英偉達首席執行官黃仁勛將其定義為AI技術演進的關鍵節點,引發全球科技界對物理AI落地場景的深度思考。在近期舉辦的2025外灘大會“AGI:數字與物理世界的共同進化”論壇上,多位專家圍繞物理AI的突破臨界點、技術瓶頸等核心議題展開討論。
極佳視界聯合創始人朱政對技術落地持樂觀態度。他提出以家庭場景任務完成度作為衡量標準:當機器人能在200種常見家務中達到95%的成功率時,即意味著物理AI迎來“ChatGPT時刻”?;诋斍凹夹g迭代速度,他預測這一目標將在2-3年內實現。朱政特別指出,家務場景的數據特殊性要求系統具備更強的環境適應能力,例如處理不同材質衣物的折疊任務時,系統需識別超過300種面料特性。
智源研究院FLM團隊負責人王業全則通過技術演進周期進行類比。他分析稱,從GPT-1到ChatGPT歷時六年完成三次重大迭代,而當前具身智能技術相當于GPT-1.6階段。按照線性發展規律,達到ChatGPT級能力至少需要五年,若要構建完善的技術體系則可能延長至十年。這種時間預估差異源于技術成熟度的判斷標準不同,王業全強調物理世界交互的復雜性遠超語言模型訓練。
數據獲取難題成為專家共識。朱政以自動駕駛數據采集為例,說明物理AI需要處理動態環境中的實時交互數據,這與語言模型依賴的靜態文本數據存在本質差異。在機器人操作演示中,單件衣物的折疊就需要處理2000個以上的動作參數,而現實場景中衣物款式每年更新率超過40%,導致數據采集成本呈指數級增長。
針對數據困境,朱政提出世界模型解決方案。該技術通過生成式算法模擬物理交互過程,可降低70%以上的真實數據采集需求。實驗數據顯示,合成數據訓練的模型在物體抓取任務中,準確率已接近真實數據訓練效果的85%。但王業全指出,現有建模方法仍存在根本性缺陷,特別是時空連續性建模和因果推理能力不足,這導致模型在復雜場景中的決策可靠性低于30%。
在技術路徑探索方面,王業全提出兩階段發展策略:首先構建包含10萬億參數的基礎模型,需整合來自50個以上傳感器的多模態數據;其次通過強化學習將模型能力遷移到具體場景。該方案面臨計算資源與算法效率的雙重挑戰,當前最優模型的訓練成本已達每秒2.5億次浮點運算,且需要持續優化數據組織形式。專家普遍認為,物理AI的突破將取決于跨學科技術的融合創新,這需要材料科學、機械工程與計算科學的協同發展。