斯坦福大學教授、WorldLabs聯合創始人李飛飛近日發表長文《從文字到世界:空間智能是AI的下一個前沿》,深入探討了當前人工智能技術在理解物理世界方面的局限性,并指出空間智能將成為突破這一瓶頸的關鍵。
李飛飛認為,以大型語言模型為代表的AI系統雖擅長處理抽象知識,卻如同在黑暗中摸索,缺乏對三維世界的真實感知。她將空間智能定義為人類理解、導航并與物理環境交互的基礎能力,認為這是實現機器真正智能的核心突破口。這種能力不僅關乎視覺識別,更涉及對空間關系、物理規律和動態變化的深層理解。
文章追溯了AI發展的歷史脈絡,指出自1950年圖靈提出"機器能否思考"的問題以來,科學界對智能本質的探索從未停歇。當前生成式AI雖已能生成文本、圖像和視頻,但在自主機器人、科學發現等需要物理交互的領域仍顯不足。李飛飛以自身25年的AI研究經歷為例,強調從構建ImageNet數據集到融合計算機視覺與機器人學習的探索,始終圍繞著空間智能這一核心。
空間智能在人類認知中扮演著支架角色。李飛飛舉例說明,日常停車時的空間判斷、消防員在煙霧中的即時決策、兒童通過互動學習世界等行為,都依賴這種直觀的空間理解能力。歷史上,埃拉托斯特尼計算地球周長、珍妮紡織機的空間革新、DNA結構的物理建模等重大突破,無不展現了空間智能推動文明進步的力量。
當前AI的空間能力雖取得進展,但仍存在根本局限。多模態模型雖能分析圖像、生成視頻,卻在距離估算、物體旋轉等基礎空間任務上表現不佳。AI生成的視頻常因缺乏物理連貫性而迅速失真,機器人操作也僅限于高度受限的環境。李飛飛指出,AI對世界的理解應是整體性的,需通過想象、推理和互動來把握空間關系,而非僅停留在描述層面。
為實現具有空間智能的AI,李飛飛提出構建"世界模型"的愿景。這種新型生成模型需具備三大能力:生成性,即創建幾何和物理一致的模擬世界;多模態性,能處理圖像、視頻、文本等多種輸入;交互性,可根據操作預測世界狀態變化。她強調,世界模型的維度遠超語言模型,需協調語義、幾何、動態和物理等多重約束。
WorldLabs的研究團隊正致力于攻克相關技術障礙,包括設計通用任務函數、開發大規模訓練數據算法、探索3D/4D感知架構等。近期,團隊發布了首個可通過多模態輸入生成一致3D環境的世界模型Marble,允許用戶在創意流程中探索和互動。這一進展標志著AI向空間智能邁出了重要一步,但李飛飛也承認,要實現人類水平的空間理解,仍需克服諸多挑戰。
空間智能的發展不僅關乎理論突破,更將催生新型創意和生產力工具。從醫療機器人到沉浸式體驗,從材料科學到日常輔助,具備空間理解能力的AI將深刻改變人類生活。隨著研究推進,這一領域正吸引越來越多研究者、工程師和商業領袖的關注,預示著AI發展將進入一個全新階段。












