在人工智能技術(shù)飛速發(fā)展的當(dāng)下,智源研究院再次成為行業(yè)焦點(diǎn)。近日,智源研究院在北京成功舉辦“悟界 ? Emu系列技術(shù)交流會(huì)”,會(huì)上,智源研究院院長(zhǎng)王仲遠(yuǎn)與多模態(tài)大模型負(fù)責(zé)人王鑫龍共同宣布,推出具有劃時(shí)代意義的Emu3.5多模態(tài)世界大模型,這一成果標(biāo)志著人工智能從單一語(yǔ)言學(xué)習(xí)向多模態(tài)世界學(xué)習(xí)邁出了關(guān)鍵一步。
回溯至2024年10月,智源研究院便已發(fā)布全球首個(gè)原生多模態(tài)世界模型Emu3。該模型獨(dú)辟蹊徑,僅基于下一個(gè)token預(yù)測(cè)技術(shù),無(wú)需依賴擴(kuò)散模型或組合方法,便實(shí)現(xiàn)了圖像、文本、視頻的深度融合與統(tǒng)一處理。一經(jīng)問(wèn)世,便在技術(shù)社區(qū)引發(fā)了廣泛關(guān)注和熱烈討論。
時(shí)隔一年,智源研究院再度發(fā)力,推出Emu3.5。此次升級(jí),在“Next-Token Prediction”范式的基礎(chǔ)上,創(chuàng)新性地模擬人類自然學(xué)習(xí)方式,通過(guò)自回歸架構(gòu)實(shí)現(xiàn)了對(duì)多模態(tài)序列的“Next-State Prediction (NSP)”,從而賦予模型更強(qiáng)大的可泛化世界建模能力。王仲遠(yuǎn)院長(zhǎng)表示:“Emu3驗(yàn)證了自回歸架構(gòu)在多模態(tài)理解與生成中的可行性,而Emu3.5則開(kāi)啟了多模態(tài)Scaling的新篇章,為構(gòu)建更通用、能與物理世界交互的人工智能提供了堅(jiān)實(shí)路徑。”
Emu3.5的訓(xùn)練過(guò)程堪稱浩大,它基于超過(guò)10萬(wàn)億token的大規(guī)模多模態(tài)數(shù)據(jù),視頻數(shù)據(jù)訓(xùn)練量時(shí)長(zhǎng)實(shí)現(xiàn)了從15年到790年的驚人躍升,參數(shù)量也從8B提升至34B,充分展現(xiàn)了原生多模態(tài)Scaling范式的巨大潛力。在推理環(huán)節(jié),Emu3.5更是創(chuàng)新性地提出了“離散擴(kuò)散自適應(yīng)”(Discrete Diffusion Adaptation,DiDA)技術(shù),這一高效的混合推理預(yù)測(cè)方法,在不犧牲性能的前提下,將每張圖片的推理速度提升了近20倍,首次使自回歸模型的生成效率達(dá)到了頂尖閉源擴(kuò)散模型的水平。
王鑫龍進(jìn)一步介紹:“EMU3.5在原生多模態(tài)的大規(guī)模預(yù)訓(xùn)練、大規(guī)模強(qiáng)化學(xué)習(xí)和高效推理方面均取得了突破,為多模態(tài)世界模型的發(fā)展指明了一條簡(jiǎn)單易擴(kuò)展的Scaling范式。”
值得一提的是,EMU3.5模型開(kāi)始展現(xiàn)出學(xué)習(xí)現(xiàn)實(shí)世界物理動(dòng)態(tài)與因果關(guān)系的強(qiáng)大能力,為探索通用世界模型奠定了堅(jiān)實(shí)基礎(chǔ)。該模型具備三大顯著特點(diǎn):一是從意圖到規(guī)劃,能夠理解高層級(jí)的人類意圖,如“如何制作一艘宇宙飛船”或“如何做咖啡拉花”,并自主生成詳細(xì)、連貫的多步驟行動(dòng)路徑;二是動(dòng)態(tài)世界模擬,能夠在統(tǒng)一框架內(nèi)無(wú)縫融合對(duì)世界的理解、規(guī)劃與模擬,預(yù)測(cè)物理動(dòng)態(tài)、時(shí)空演化和長(zhǎng)時(shí)程因果關(guān)系;三是可成為泛化交互基礎(chǔ),其涌現(xiàn)出的因果推理和規(guī)劃能力,為AI與人類及物理環(huán)境進(jìn)行泛化交互提供了關(guān)鍵的認(rèn)知基礎(chǔ)。
在實(shí)際應(yīng)用中,Emu3.5在多模態(tài)指導(dǎo)方面展現(xiàn)出卓越的時(shí)序一致性與步驟推理能力,使復(fù)雜任務(wù)的執(zhí)行過(guò)程更加清晰透明。同時(shí),其多模態(tài)敘事能力也令人矚目,能夠圍繞任意主題生成沉浸式的故事體驗(yàn),激發(fā)無(wú)限想象力。該模型還具備跨場(chǎng)景的具身操作能力,能夠?qū)崿F(xiàn)泛化的動(dòng)作規(guī)劃與復(fù)雜交互,并在世界探索中保持長(zhǎng)距離一致性與可控交互,兼顧真實(shí)與虛擬的動(dòng)態(tài)環(huán)境,實(shí)現(xiàn)自由探索與精準(zhǔn)控制。
在圖文編輯領(lǐng)域,Emu3.5同樣表現(xiàn)出色。它既能通過(guò)自然語(yǔ)言實(shí)現(xiàn)任意指令的圖片編輯與時(shí)空變換,也能以精準(zhǔn)、智能、可控且富有創(chuàng)意的方式完成文圖生成,使文字與視覺(jué)內(nèi)容的融合更加自然與高保真。在基準(zhǔn)測(cè)試中,Emu3.5的表現(xiàn)更是超越了眾多知名的閉源模型,彰顯了其強(qiáng)大的技術(shù)實(shí)力。











