北京智源人工智能研究院近日推出新一代多模態(tài)世界模型Emu3.5,通過創(chuàng)新性引入自回歸式“下一狀態(tài)預(yù)測”(NSP)架構(gòu),推動人工智能從單一模態(tài)理解向跨場景智能操作跨越。該模型首次將文本、圖像、動作指令等多元信息整合為連續(xù)狀態(tài)序列,通過預(yù)測后續(xù)狀態(tài)變化實(shí)現(xiàn)端到端決策,標(biāo)志著AI系統(tǒng)開始具備“預(yù)判-規(guī)劃-執(zhí)行”的完整能力鏈。
在核心技術(shù)層面,Emu3.5突破傳統(tǒng)多模態(tài)模型的特征對齊局限,構(gòu)建了統(tǒng)一的狀態(tài)流編碼體系。模型接收用戶指令后,不僅能解析當(dāng)前場景要素,更能模擬操作對環(huán)境的影響。例如當(dāng)用戶要求“將咖啡杯移至桌角并增強(qiáng)畫面亮度”時(shí),系統(tǒng)會同步計(jì)算物體移動軌跡、光照參數(shù)變化及背景協(xié)調(diào)性,確保每個操作步驟符合物理規(guī)律與視覺邏輯。
實(shí)測數(shù)據(jù)顯示,該模型在復(fù)雜任務(wù)處理中展現(xiàn)出顯著優(yōu)勢。在圖像生成領(lǐng)域,可根據(jù)“蒸汽朋克風(fēng)格的海底城市,氣泡折射著機(jī)械生物的光澤”等精細(xì)描述,自動生成具有物理可信度的畫面;圖像編輯場景下,支持“將人物服飾改為1920年代爵士風(fēng)”等語義級修改,無需人工選取操作區(qū)域;視頻處理方面,能對連續(xù)幀進(jìn)行動態(tài)調(diào)整,如實(shí)現(xiàn)“奔跑者突然急停并反向跳躍”的時(shí)空連貫編輯。
這種跨模態(tài)協(xié)同能力為機(jī)器人控制、虛擬助手開發(fā)、智能設(shè)計(jì)等領(lǐng)域開辟新路徑。在醫(yī)療場景中,模型可同步分析CT影像與電子病歷,生成包含三維重建與診療建議的復(fù)合報(bào)告;教育領(lǐng)域能根據(jù)知識點(diǎn)自動生成包含互動元素的多媒體課件;娛樂產(chǎn)業(yè)則支持從劇本創(chuàng)作到鏡頭設(shè)計(jì)的全流程AI輔助。
研發(fā)團(tuán)隊(duì)強(qiáng)調(diào),Emu3.5通過消除文本、視覺、動作間的信息壁壘,實(shí)現(xiàn)了真正意義上的模態(tài)自由切換。科研人員可基于統(tǒng)一框架處理異構(gòu)數(shù)據(jù),普通用戶則能通過自然語言完成專業(yè)軟件操作。目前該模型已啟動教育、醫(yī)療、文娛等領(lǐng)域的商業(yè)化應(yīng)用,并計(jì)劃分階段開源核心模塊,推動構(gòu)建開放的多模態(tài)技術(shù)生態(tài)。
這項(xiàng)突破重新定義了AI系統(tǒng)的角色定位——從被動執(zhí)行指令的工具,轉(zhuǎn)變?yōu)榫邆渲鲃右?guī)劃能力的協(xié)作者。當(dāng)模型開始預(yù)測環(huán)境變化并自主規(guī)劃最優(yōu)路徑時(shí),人工智能正沿著通用智能的方向邁出關(guān)鍵步伐。智源研究院通過NSP架構(gòu)的創(chuàng)新,為多模態(tài)技術(shù)發(fā)展找到了新的突破口。








