北京智源人工智能研究院再度引發(fā)行業(yè)震動,其最新推出的開源原生多模態(tài)世界模型——悟界·Emu3.5,正在重新定義AI對物理世界的理解能力。這款被業(yè)界視為"世界模型基座"的突破性成果,首次實現了文本、圖像、視頻三大模態(tài)的深度融合,在動態(tài)場景構建、長時序邏輯推理等核心領域展現出顛覆性創(chuàng)新。
與傳統(tǒng)文生視頻模型不同,Emu3.5突破了"表面相似性"的局限,構建起對物理規(guī)律的深層認知。當用戶要求消除手寫痕跡時,模型不僅能精準識別筆跡區(qū)域,更能理解紙張紋理的連續(xù)性,確保修改后的區(qū)域與整體保持光學一致性。這種能力源自其獨特的訓練范式——通過分析超過10萬億Token的多模態(tài)數據,其中包含海量互聯網視頻的連續(xù)幀序列,使模型天然掌握時空連續(xù)性法則。
在動態(tài)世界模擬方面,Emu3.5創(chuàng)造了前所未有的交互體驗。用戶以第一人稱視角探索虛擬環(huán)境時,模型能實時推演空間變化:當鏡頭轉向房間角落,系統(tǒng)會自動補全被遮擋的家具輪廓;在火星卡丁車場景中,車輪揚起的紅色塵土會隨著地形起伏呈現不同的擴散軌跡。這種空間一致性能力,使虛擬世界首次具備了物理引擎級別的真實感。
具身智能操作是該模型的另一大突破。在"整理桌面"任務中,Emu3.5展現出類人的規(guī)劃能力:先識別所有物品的3D坐標,再根據線纜長度規(guī)劃最優(yōu)捆綁路徑,最后通過理線槽實現隱藏式收納。整個過程涉及27步連續(xù)操作,每步都嚴格遵循物理約束條件。更令人驚嘆的是,當用戶中途修改指令要求"改用藍色扎帶"時,模型能立即調整后續(xù)所有相關操作。
視覺創(chuàng)作領域,Emu3.5重新定義了"所見即所得"的標準。將狐貍草圖轉化為3D手辦的任務中,模型在12個連續(xù)創(chuàng)作階段始終保持特征一致性:從基礎建模到3D打印支撐結構生成,再到上色時的光影過渡,每個環(huán)節(jié)都嚴格遵循初始設定的狐貍神態(tài)。這種長時程創(chuàng)作能力,使其能生成包含38個步驟的烹飪教學指南,每個操作畫面都附帶精準的物理參數說明。
技術實現層面,研發(fā)團隊創(chuàng)造了多項創(chuàng)新。340億參數的Decoder-only架構將所有任務統(tǒng)一為狀態(tài)預測問題,通過多模態(tài)分詞器將文本、圖像轉化為離散Token序列。特別設計的IBQ視覺分詞器擁有13萬詞匯表,配合擴散解碼器可實現2K分辨率圖像重建。為解決生成速度難題,離散擴散適配技術使圖像推理效率提升19倍,同時保持97.3%的原始質量。
在權威基準測試中,Emu3.5展現出壓倒性優(yōu)勢。文本渲染任務準確率達92.7%,超越Gemini-2.5-Flash-Image模型4.2個百分點;多模態(tài)交錯生成任務的邏輯連貫性評分創(chuàng)下89.1的新高。這些數據印證了其作為世界模型基座的潛力——既能生成電影級視覺敘事,也可為機器人提供空間推理引擎。
這款劃時代模型的開源決定,正在引發(fā)全球開發(fā)者生態(tài)的連鎖反應。研究團隊同步釋放了預訓練框架、微調工具鏈和強化學習系統(tǒng),使中小團隊也能基于Emu3.5開發(fā)垂直領域應用。目前已有教育機構利用其生成物理實驗模擬器,醫(yī)療領域則嘗試構建手術訓練的虛擬環(huán)境。
體驗通道現已開啟,科研內測版申請鏈接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b 項目技術文檔與演示案例詳見官網:https://zh.emu.world/pages/web/landingPage











