昆侖萬(wàn)維公司近期宣布了一項(xiàng)重大進(jìn)展,其Matrix系列中的Matrix-Game大模型(超過(guò)170億參數(shù))已正式向公眾開源。這一開源模型是Matrix-Zero世界模型中的重要組成部分,專注于可交互視頻生成。
據(jù)昆侖萬(wàn)維介紹,Matrix-Game標(biāo)志著Matrix系列在交互式世界生成領(lǐng)域的實(shí)質(zhì)性突破,同時(shí)也是業(yè)界首個(gè)開源的超過(guò)100億參數(shù)的空間智能大模型。該模型專為游戲世界的建模而設(shè)計(jì),旨在開放式環(huán)境中實(shí)現(xiàn)高質(zhì)量的內(nèi)容生成與精確控制。
Matrix-Game的核心構(gòu)成包括三大要素。首先是Matrix-Game-MC數(shù)據(jù)集,這是一個(gè)由昆侖萬(wàn)維自主構(gòu)建的大規(guī)模交互世界數(shù)據(jù)集。該數(shù)據(jù)集包含兩類核心數(shù)據(jù):一是大量無(wú)標(biāo)簽的Minecraft游戲視頻,二是帶有詳細(xì)鍵盤與鼠標(biāo)控制信號(hào)的Minecraft與Unreal可控視頻數(shù)據(jù),這些數(shù)據(jù)均具備精細(xì)的動(dòng)作注釋,為復(fù)雜環(huán)境動(dòng)態(tài)與交互模式的高效建模與學(xué)習(xí)提供了堅(jiān)實(shí)基礎(chǔ)。
其次是Matrix-Game主模型,這一模型基于先進(jìn)的擴(kuò)散模型技術(shù)開發(fā),構(gòu)建了一個(gè)從圖像到世界生成的框架。它能夠根據(jù)用戶的輸入(如鍵盤指令、鼠標(biāo)移動(dòng)等)生成連貫且可控的互動(dòng)視頻,同時(shí)兼顧視覺(jué)質(zhì)量、時(shí)序一致性與物理合理性。這一技術(shù)突破為游戲世界的動(dòng)態(tài)生成提供了強(qiáng)有力的支持。
最后是GameWorld Score評(píng)測(cè)體系,這是昆侖萬(wàn)維提出的一項(xiàng)統(tǒng)一的游戲交互世界評(píng)估標(biāo)準(zhǔn)。該體系從視覺(jué)質(zhì)量、時(shí)序質(zhì)量、動(dòng)作可控性與物理規(guī)則理解四個(gè)維度全面量化模型性能,填補(bǔ)了該領(lǐng)域缺乏系統(tǒng)性評(píng)測(cè)基準(zhǔn)的空白,為模型的優(yōu)化與改進(jìn)提供了明確的方向。
Matrix-Game在不同Minecraft場(chǎng)景下均能實(shí)現(xiàn)可控生成,包括基礎(chǔ)運(yùn)動(dòng)、復(fù)合運(yùn)動(dòng)、視角運(yùn)動(dòng)等多種動(dòng)態(tài)行為。例如,在沙漠場(chǎng)景中,用戶可以通過(guò)輸入鍵盤指令和移動(dòng)鼠標(biāo)來(lái)控制角色的前后左右移動(dòng)、跳躍、攻擊以及視角變換等動(dòng)作,Matrix-Game能夠?qū)崟r(shí)生成對(duì)應(yīng)的游戲世界視頻,呈現(xiàn)出流暢且真實(shí)的游戲體驗(yàn)。
Matrix-Game還支持自回歸式的長(zhǎng)視頻生成,能夠在動(dòng)作與視角之間實(shí)現(xiàn)絲滑銜接,同時(shí)在時(shí)間一致性與環(huán)境適應(yīng)性方面表現(xiàn)出色。這一功能為開發(fā)沉浸式長(zhǎng)時(shí)體驗(yàn)、創(chuàng)意內(nèi)容生成及游戲設(shè)計(jì)等應(yīng)用提供了堅(jiān)實(shí)的模型基礎(chǔ),有望推動(dòng)游戲產(chǎn)業(yè)的進(jìn)一步創(chuàng)新與發(fā)展。