滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

北京智源Emu3.5開源登場：多模態(tài)能力躍升，性能超越Gemini-2.5-Flash-Image

時間：2025-10-31 10:55:22 來源：互聯網編輯：快訊 IP：北京 發(fā)表評論無障礙通道

北京智源人工智能研究院再度引發(fā)行業(yè)震動，其最新推出的開源原生多模態(tài)世界模型——悟界·Emu3.5，正在重新定義AI對物理世界的理解能力。這款被業(yè)界視為"世界模型基座"的突破性成果，首次實現了文本、圖像、視頻三大模態(tài)的深度融合，在動態(tài)場景構建、長時序邏輯推理等核心領域展現出顛覆性創(chuàng)新。

與傳統(tǒng)文生視頻模型不同，Emu3.5突破了"表面相似性"的局限，構建起對物理規(guī)律的深層認知。當用戶要求消除手寫痕跡時，模型不僅能精準識別筆跡區(qū)域，更能理解紙張紋理的連續(xù)性，確保修改后的區(qū)域與整體保持光學一致性。這種能力源自其獨特的訓練范式——通過分析超過10萬億Token的多模態(tài)數據，其中包含海量互聯網視頻的連續(xù)幀序列，使模型天然掌握時空連續(xù)性法則。

在動態(tài)世界模擬方面，Emu3.5創(chuàng)造了前所未有的交互體驗。用戶以第一人稱視角探索虛擬環(huán)境時，模型能實時推演空間變化：當鏡頭轉向房間角落，系統(tǒng)會自動補全被遮擋的家具輪廓；在火星卡丁車場景中，車輪揚起的紅色塵土會隨著地形起伏呈現不同的擴散軌跡。這種空間一致性能力，使虛擬世界首次具備了物理引擎級別的真實感。

具身智能操作是該模型的另一大突破。在"整理桌面"任務中，Emu3.5展現出類人的規(guī)劃能力：先識別所有物品的3D坐標，再根據線纜長度規(guī)劃最優(yōu)捆綁路徑，最后通過理線槽實現隱藏式收納。整個過程涉及27步連續(xù)操作，每步都嚴格遵循物理約束條件。更令人驚嘆的是，當用戶中途修改指令要求"改用藍色扎帶"時，模型能立即調整后續(xù)所有相關操作。

視覺創(chuàng)作領域，Emu3.5重新定義了"所見即所得"的標準。將狐貍草圖轉化為3D手辦的任務中，模型在12個連續(xù)創(chuàng)作階段始終保持特征一致性：從基礎建模到3D打印支撐結構生成，再到上色時的光影過渡，每個環(huán)節(jié)都嚴格遵循初始設定的狐貍神態(tài)。這種長時程創(chuàng)作能力，使其能生成包含38個步驟的烹飪教學指南，每個操作畫面都附帶精準的物理參數說明。

技術實現層面，研發(fā)團隊創(chuàng)造了多項創(chuàng)新。340億參數的Decoder-only架構將所有任務統(tǒng)一為狀態(tài)預測問題，通過多模態(tài)分詞器將文本、圖像轉化為離散Token序列。特別設計的IBQ視覺分詞器擁有13萬詞匯表，配合擴散解碼器可實現2K分辨率圖像重建。為解決生成速度難題，離散擴散適配技術使圖像推理效率提升19倍，同時保持97.3%的原始質量。

在權威基準測試中，Emu3.5展現出壓倒性優(yōu)勢。文本渲染任務準確率達92.7%，超越Gemini-2.5-Flash-Image模型4.2個百分點；多模態(tài)交錯生成任務的邏輯連貫性評分創(chuàng)下89.1的新高。這些數據印證了其作為世界模型基座的潛力——既能生成電影級視覺敘事，也可為機器人提供空間推理引擎。

這款劃時代模型的開源決定，正在引發(fā)全球開發(fā)者生態(tài)的連鎖反應。研究團隊同步釋放了預訓練框架、微調工具鏈和強化學習系統(tǒng)，使中小團隊也能基于Emu3.5開發(fā)垂直領域應用。目前已有教育機構利用其生成物理實驗模擬器，醫(yī)療領域則嘗試構建手術訓練的虛擬環(huán)境。

體驗通道現已開啟，科研內測版申請鏈接：https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b 項目技術文檔與演示案例詳見官網：https://zh.emu.world/pages/web/landingPage

10-31

OpenAI與Oracle攜手，密歇根將建超1吉瓦數據中心助力AI發(fā)展

10-31

亞馬遜Q3業(yè)績亮眼：銷售額超預期，盤后股價飆升，Q4展望強勁

10-31

OpenAI與甲骨文攜手：密歇根州建超大型數據中心，2026年動工助力AI發(fā)展

10-31

湘財與大智慧吸收合并加速推進業(yè)績向好合并后有望躍居互聯網券商第二

10-31

AWS云業(yè)務領航亞馬遜Q3凈利潤同比增38% 盤后股價飆升13%

10-31

庫克電話會議透露：iPhone Air推遲上市致大中華區(qū)收入降假日季營收或創(chuàng)新高

10-31

美國古生物學家桑普森滬上圓夢，借科技助力中國恐龍大展“飛”向世界

10-31

唐山機器人產業(yè)乘勢而上：對接北京創(chuàng)意，共享智造模式加速騰飛

為了加快北京科研成果在唐山轉化，唐山高新區(qū)創(chuàng)業(yè)中心正在建設“雙向飛地”，一方面在北京設立“科創(chuàng)飛地”，為需要在北京進行研發(fā)或者建設研發(fā)中心、研發(fā)機構的唐山企業(yè)提供服務。華安百唐相關負責人說，公司已經瞄準數個…

10-31

MiniMax：以長期主義破局AI深水區(qū)，國產獨角獸的突圍與遠征

10-31

螞蟻數科金融街論壇發(fā)聲：助力城商行借AI突圍，實現業(yè)績顯著增長

目前，螞蟻數科為銀行提供的AI應用已從早期的智能客服、知識問答等單點場景，擴展至覆蓋營銷、風控、投顧、理賠等核心業(yè)務的全棧智能體系統(tǒng)。浙江一家頭部城商行則與螞蟻數科合作，系統(tǒng)性構建了“算力－平臺－模型－應用…

10-31

百度袁佛玉：AI驅動超級周期啟幕，攜手產業(yè)共赴智能生產力無限未來

袁佛玉表示，在可見的未來，大模型發(fā)展方向是智能能力提升和持續(xù)降低成本，最終落地形式會走向Agent AI和Physical AI。在這兩個趨勢下，當下最重要的是兩方面能力：一是模型推理及代碼能力更強，走向自…

10-31

智源研究院推出Emu3.5多模態(tài)大模型，為AI邁向物理世界提供新路徑

一年后，智源發(fā)布Emu3.5，在“Next-TokenPrediction”范式的基礎上，模擬人類自然學習方式，以自回歸架構實現了對多模態(tài)序列的“Next-State Prediction (NSP)”，…

10-31

百度智能云雙11亮劍：免費權益+全鏈路AI營銷，賦能企業(yè)降本增效新突破

融入Keevx后的百度智能云智能營銷產品矩陣，也得以首次系統(tǒng)化亮相，完整覆蓋“找對人 - 吸引ta - 轉化ta - 留住ta” 的營銷全鏈路。作為全球AI云首倡者，百度智能云構建起了從芯片、算力，到模型、…

10-31

FocusAgent：智能篩選助力網頁機器人，信息處理效率與安全性雙提升

10-31

點擊查看更多 +

全站最新

唐DMI開啟HEV模式發(fā)動機噪音大耗油高？這樣設置輕松解決！

前特斯拉工程師創(chuàng)業(yè)新突破：Speedster“羽量級”電動車明年交付

?專家解讀路線圖3.0：2035年傳統(tǒng)能源乘用車全面混動 2040年L4級自動駕駛加速普及?

2025東京車展亮相！全新馬自達CX-5經典回歸，自吸混動雙動力，運動范兒十足

嵐圖泰山大型SUV來襲！5米2車長+3米1軸距，50萬級實力幾何？

三十四年堅守鑄就三千萬輛榮耀一汽-大眾書寫中國汽車工業(yè)奮進篇章

熱門內容

本欄最新

Grok家族再添新成員！新AI伴侶Mika正式亮相已有五位伙伴同行

頭部985高校AI大模型算法博士：學術之路閃耀，收入表現亮眼

小米與北大聯合論文現“天才少女”羅福莉之名，其職業(yè)軌跡與千萬年薪傳聞引關注

2025百度世界大會11月13日啟幕，年度盛會共探技術新趨勢

截至10月11日，上海累計完成119款生成式AI服務登記，新增5款

截至2025年10月9日北京市新增3款生成式AI服務累計備案達161款

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區(qū) 魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

北京智源Emu3.5開源登場：多模態(tài)能力躍升，性能超越Gemini-2.5-Flash-Image

日本精品一区二区三区高清久久