智源研究院在北京舉辦的“悟界·Emu系列技術交流會”上,正式推出Emu3.5多模態世界大模型。這款由智源院長王仲遠與多模態大模型負責人王鑫龍聯合發布的成果,標志著人工智能從語言認知向多模態世界建模的跨越式發展。該模型通過單一自回歸Transformer架構實現端到端原生多模態訓練,在10萬億token級數據上完成預訓練,視頻數據訓練時長從15年激增至790年,參數規模從80億擴展至340億,為多模態大模型的規模化發展開辟新路徑。
技術突破方面,智源獨創的“離散擴散自適應”(DiDA)技術將圖像推理效率提升20倍,使自回歸模型首次達到閉源擴散模型的生成速度。模型采用“預測下一個狀態”的核心訓練目標,通過海量多模態數據自發學習物理世界的運行規律,形成對時空連續性和因果關系的內在表征。這種非硬編碼的知識獲取方式,使Emu3.5具備長時程環境交互能力,與單純內容生成模型形成本質區別。
作為新一代世界模型,Emu3.5構建了完整的預測系統,在理解、預測、規劃三個維度形成閉環。其獨特能力體現在:可解析高層意圖并生成多步驟行動方案,如規劃“宇宙飛船制造流程”或“咖啡拉花步驟”;在統一框架內實現物理動態模擬與因果關系推演;通過涌現的因果推理能力支持具身交互,為機器人操控提供認知基礎。這些特性使模型既能生成行動指南,又具備基礎物理直覺,可在多場景中實現可控探索。
在功能表現上,Emu3.5展現出跨模態時序一致性優勢。其多模態敘事能力可圍繞任意主題創建沉浸式故事體驗,具身操作模塊支持跨場景動作規劃與復雜交互。在圖文編輯領域,模型通過自然語言指令實現精準時空變換,文圖生成質量超越多數閉源模型。基準測試顯示,該模型在多維度評估中均達到行業領先水平。
研發路徑上,智源研究院延續其創新定位,聚焦高校與企業未涉足的AI前沿領域。作為國內最早開展大模型研究的機構,團隊曾成功孵化悟道系列模型,培養眾多行業領軍人才。近兩年轉向多模態與物理世界AI研發,基于對技術演進趨勢的判斷,主張通過原生多模態架構統一感知與生成能力。2024年發布的Emu3已驗證自回歸架構的可行性,此次Emu3.5進一步證明模型性能可隨數據、算力、參數規模同步提升。
王仲遠在發布會上強調,Emu3.5開創了多模態Scaling的新范式,為構建通用世界模型提供可量化的實踐路徑。模型通過模擬人類自然學習方式,在“下一狀態預測”框架下實現世界建模能力的泛化。目前,智源已啟動學術合作計劃,將向科研機構開放Emu3.5體驗版,同時通過官方渠道啟動產業界邀請測試,推動多模態世界模型的技術生態建設。











