生成式AI領域正經歷一場技術范式的轉變,從文本與圖像生成向"世界模型"方向加速演進。這種新型AI系統不再滿足于靜態內容輸出,而是試圖構建對物理世界的完整認知體系——既能理解"世界當前的狀態",也能預測"未來可能的變化"。行業觀察者指出,世界模型正在成為科技巨頭與初創企業爭奪的下一個戰略高地。
在硅谷的實驗室里,兩條截然不同的技術路徑正在形成。由李飛飛團隊創立的World Labs推出的Marble系統,選擇從空間智能切入。這個尚在測試階段的工具能通過單張圖片或文字描述,生成具有嚴格幾何一致性的三維虛擬環境。用戶在其中探索時,會發現建筑結構保持穩定,不會出現傳統3D建模中常見的形變或消失現象。創作者已用它構建出海底世界、奇幻森林等復雜場景,支持從動漫到寫實的多種視覺風格。
資深AI開發者Jason在體驗后指出,Marble的突破性在于重構了空間生成邏輯。"它用十分鐘就能構建出包含物理結構的完整空間,雖然當前版本的光影效果和細節精度有限,但開辟了空間合理性研究的新方向。"這種非實時生成但可實時探索的特性,使其更適合舞臺設計、影視預演等需要穩定空間框架的場景。
與Marble的空間敘事不同,谷歌DeepMind的Genie 3項目聚焦交互邏輯的推演。這個系統能根據文本提示生成動態環境,以24幀/秒的速率運行數分鐘。其核心技術在于通過視頻訓練自動推斷交互規則——當輸入游戲截圖或火柴人草圖時,系統能識別玩家角色并預測哪些元素可互動。這種"規則引擎"式的特性,使其更接近交互物理模擬器的定位。
兩種技術路線的差異引發行業熱議。有投資人形象地將Marble比作"舞臺布景師",Genie 3則是"規則設定者"——前者提供靜態空間容器,后者賦予動態生命力。這種互補性暗示著完整虛擬世界的構建可能需要雙重技術的融合:既要有穩定的空間基礎,也需要可信的交互邏輯。
在商業化路徑上,不同機構展現出差異化戰略。World Labs獲得a16z等頂級風投的支持,其空間智能技術被視為下一代虛擬環境構建的平臺級機會。而谷歌通過Genie 3鞏固其在具身智能領域的前沿地位,為通用AI研究提供基礎設施。從應用場景看,Marble的技術更貼近影視、游戲等內容生產行業,Genie 3則偏向科研與前沿探索。
中國創業者的實踐提供了另一種可能。極佳科技憑借在自動駕駛仿真領域的技術積累,推出了世界模型平臺GigaWorld。這個系統能生成開放仿真環境,已應用于車企的虛擬測試。聯合創始人朱政指出,不同領域對世界模型的需求存在顯著差異:計算機視覺領域關注視頻連貫性,強化學習需要逼真決策環境,具身智能則強調環境理解能力。
這家中國公司的產業化路徑分為三個階段:首先通過數據生成降低真實采集成本,繼而構建閉環仿真環境提升訓練效率,最終發展出具備推理能力的下一代視覺-語言-動作模型。相比大廠的科研導向,中國企業的優勢在于直接對接自動駕駛、工業仿真等明確市場需求,形成技術-場景的快速閉環。
但產業化進程仍面臨多重挑戰。生成和訓練世界模型所需的算力成本高昂,創業公司難以長期承擔;行業尚未建立統一的技術標準,不同技術路線之間缺乏可比性。這些因素使得世界模型的商業化道路充滿不確定性,卻也預示著這個領域將誕生更多創新可能。