人工智能領域迎來重要突破,智源研究院近日正式推出“悟界 EMU3.5”多模態世界大模型。這一成果被視為行業邁向新階段的關鍵標志,尤其在大語言模型文本能力發展趨緩、尋求新突破的背景下,多模態技術成為備受矚目的方向。
多模態技術發展面臨的核心難題,是如何有效融合文本、圖像、視頻等不同類型的數據。目前行業內存在兩條主要技術路徑:一條是DiT架構,在文生圖、文生視頻等生成任務中表現優異;另一條是以智源Emu系列為代表的“原生多模態”架構,試圖從基礎層面構建統一處理所有模態的模型。
EMU3.5的發布被認為開啟了人工智能從“語言學習”向“多模態世界學習”轉變的新紀元。該模型在技術路徑上延續了Emu系列的原生多模態理念,采用統一的自回歸架構,將文本、圖像、視頻等數據統一轉化為Token進行預測。這種設計在理論上實現了模態統一,但過去面臨推理效率低下的問題——生成圖像時需逐個Token輸出,速度遠慢于并行生成的Diffusion模型。
為解決這一瓶頸,研發團隊提出“DiDA(離散擴散自適應)”技術。這項創新允許自回歸模型在推理階段并行預測大規模Token,顯著提升生成效率。據測試,在保持性能不變的前提下,圖像生成速度提升近20倍,首次使自回歸架構達到與頂尖閉源擴散模型相當的水平。這一突破為原生多模態路線的實際應用掃清了關鍵障礙。
效率問題解決后,規模化發展成為可能。EMU3.5通過大幅增加模型參數和訓練數據驗證了多模態領域的“規模定律”:參數規模從80億躍升至340億,訓練視頻數據時長從15年增至790年。基于這一實踐,研發團隊提出“第三種Scaling范式”,其核心優勢包括:統一的自回歸架構為規模化提供基礎;可復用現有語言模型訓練基礎設施;首次在多模態領域引入大規模強化學習技術。
該模型的技術升級不僅體現在規模擴張,更在于核心范式的轉變——從“預測下一個Token”升級為“預測下一個狀態”。這一轉變要求模型理解事物背后的因果關系和物理規律,而非簡單續寫數據。例如,當輸入“疊衣服”指令時,模型能生成包含完整步驟的機器人操作序列;在圖案推理任務中,模型需先理解規律才能生成正確結果;面對建筑正面圖轉換俯視圖的需求,模型需構建三維空間關系模型。
這種“預測狀態”的能力為具身智能發展提供了新路徑。當前機器人訓練面臨真實數據匱乏的困境,而EMU3.5可通過模擬物理世界生成高質量訓練數據。測試顯示,在未見過的新場景中,搭載該模型的機器人任務成功率從0%提升至70%,表明其具備理解、規劃和泛化的核心智能,可擔任具身智能的“大腦”角色。











