人工智能的競爭版圖正經歷深刻變革,原本聚焦于大語言模型的科技巨頭們,如今紛紛將目光投向更具挑戰性的領域——能夠模擬現實物理世界的“世界模型”。在這場新一輪技術競賽中,馬斯克創立的xAI公司正以獨特路徑加速布局,與谷歌、meta等企業展開正面交鋒。
據權威財經媒體披露,xAI今年夏季從英偉達引入兩位世界模型領域資深專家,其研發方向直指通過海量視頻和機器人數據訓練模型,以掌握真實世界的物理規律。這種技術路徑與依賴文本輸入的傳統大語言模型形成鮮明對比,被視為人工智能從“數字世界”向“物理世界”跨越的關鍵突破。
谷歌近期發布的學術論文引發行業震動,其研發的視頻模型Veo 3展現出類似大語言模型的“涌現能力”。研究人員發現,通過“下一幀預測”訓練的視頻模型,無需專門編程即可自主完成物體分割、邊緣檢測等復雜任務,甚至能模擬工具使用方式。這種能力躍遷被類比為自然語言處理領域的GPT-3突破,預示著機器視覺可能迎來“通用模型時代”。
xAI的商業化布局已顯露端倪。知情人士透露,該公司計劃將世界模型率先應用于游戲領域,開發可交互的3D環境生成系統。馬斯克在社交平臺公開確認,將在明年年底前推出AI生成游戲,這項技術未來更可能延伸至機器人控制系統。為支撐這一戰略,xAI正在高薪招募圖像視頻生成專家,其“omni團隊”薪資最高達44萬美元,同時以時薪45-100美元招聘游戲導師訓練AI模型。
技術突破背后是嚴峻的現實挑戰。行業分析指出,構建世界模型面臨雙重困境:其一,訓練數據獲取成本高昂,真實世界的物理交互數據采集需要巨額投入;其二,單純技術進步未必能轉化為商業成功。知名游戲開發商Larian Studios的發行主管直言,AI無法解決行業根本問題,游戲產業更需要的是創新領導力和多樣化表達,而非單純依賴數學模型生成的內容。
盡管爭議不斷,xAI的強勢入局仍為行業注入新動能。谷歌研究人員提出的“幀鏈”理論,將視頻逐幀生成類比為語言模型的“思維鏈”,認為這種時空推理能力可能催生出具備自主決策能力的機器人系統。這場競賽的終極目標,不僅是爭奪下一代AI技術的主導權,更可能重新定義人類與數字物理世界的交互方式。









