近日,學(xué)術(shù)界與業(yè)界聯(lián)手取得了一項(xiàng)突破性進(jìn)展,普林斯頓大學(xué)、字節(jié)跳動(dòng)、清華大學(xué)及北京大學(xué)共同研發(fā)的多模態(tài)大模型MMaDA橫空出世,該模型以其卓越的跨模態(tài)理解與生成能力,在人工智能領(lǐng)域掀起了一場(chǎng)革命。
MMaDA的問(wèn)世,標(biāo)志著AI不再局限于單一模態(tài)的處理,而是能夠靈活穿梭于文本、圖像乃至復(fù)雜推理任務(wù)之間,其表現(xiàn)甚至超越了當(dāng)前備受矚目的GPT-4、Gemini及SDXL等模型。這一成就,無(wú)疑是對(duì)傳統(tǒng)多模態(tài)模型的一次重大超越。
傳統(tǒng)多模態(tài)模型在處理不同數(shù)據(jù)類型時(shí),往往需要依賴各自獨(dú)立的組件或復(fù)雜的混合機(jī)制,如同一個(gè)裝滿各式工具的箱子,雖然功能全面,但切換起來(lái)頗為不便。而MMaDA則打破了這一壁壘,通過(guò)其獨(dú)特的統(tǒng)一擴(kuò)散架構(gòu),實(shí)現(xiàn)了AI的一體化。
MMaDA的核心創(chuàng)新之一,便是其統(tǒng)一擴(kuò)散架構(gòu)。這一架構(gòu)如同一瓶萬(wàn)能膠水,能夠?qū)⒉煌螤睢⒉煌馁|(zhì)的數(shù)據(jù)碎片完美粘合。它采用共享的概率公式和模態(tài)無(wú)關(guān)的設(shè)計(jì),使得模型在處理文本、圖像等不同類型數(shù)據(jù)時(shí),無(wú)需依賴特定的模態(tài)組件,從而實(shí)現(xiàn)了數(shù)據(jù)間的無(wú)縫切換與處理,極大地提升了效率和連貫性。
MMaDA還引入了混合長(zhǎng)鏈?zhǔn)剿伎迹∕ixed Long CoT)微調(diào)策略,讓AI學(xué)會(huì)了“深度思考”。這一策略通過(guò)設(shè)計(jì)跨模態(tài)的統(tǒng)一CoT格式,強(qiáng)制AI在文本和視覺(jué)領(lǐng)域之間對(duì)齊推理過(guò)程,從而在進(jìn)入強(qiáng)化學(xué)習(xí)階段前,便具備了處理復(fù)雜任務(wù)的能力。這相當(dāng)于為AI提前準(zhǔn)備了一本“武林秘籍”,使其在實(shí)戰(zhàn)前就掌握了“深度思考”的內(nèi)功心法。
為了進(jìn)一步提升模型的性能,MMaDA還提出了針對(duì)擴(kuò)散模型設(shè)計(jì)的統(tǒng)一策略梯度強(qiáng)化學(xué)習(xí)算法UniGRPO。該算法通過(guò)多樣化的獎(jiǎng)勵(lì)建模,巧妙地統(tǒng)一了推理和生成任務(wù)的后訓(xùn)練,確保了模型性能的持續(xù)提升。UniGRPO如同一位“全能教練”,能夠同時(shí)指導(dǎo)AI在“智力競(jìng)賽”(推理)和“創(chuàng)意工坊”(生成)中都表現(xiàn)出色。
在各項(xiàng)測(cè)試中,MMaDA-8B模型展現(xiàn)出了驚人的泛化能力。在文本推理方面,它超越了LLAMA-3-7B和Qwen2-7B,展現(xiàn)出更強(qiáng)的“智力”。在多模態(tài)理解方面,它優(yōu)于Show-o和SEED-X,表現(xiàn)更為準(zhǔn)確、全面。而在文本到圖像生成方面,它甚至超越了公認(rèn)的圖像生成強(qiáng)者SDXL,生成了更準(zhǔn)確、更符合世界知識(shí)的圖片。
MMaDA之所以能夠?qū)崿F(xiàn)如此出色的表現(xiàn),得益于其統(tǒng)一Token化處理策略。無(wú)論是文本還是圖像,MMaDA都采用一致的離散Token化處理,使得所有數(shù)據(jù)都變成了統(tǒng)一的“樂(lè)高積木”。這一策略為模型提供了一個(gè)統(tǒng)一的預(yù)測(cè)被遮蔽Token的目標(biāo),從而實(shí)現(xiàn)了跨模態(tài)的無(wú)縫處理。
在訓(xùn)練過(guò)程中,MMaDA經(jīng)歷了基礎(chǔ)預(yù)訓(xùn)練、混合長(zhǎng)鏈?zhǔn)剿伎嘉⒄{(diào)和UniGRPO強(qiáng)化學(xué)習(xí)三個(gè)階段,如同“打怪升級(jí)”一般,逐步提升了模型的能力。在推理時(shí),MMaDA也展現(xiàn)出了極高的靈活性,文本生成采用半自回歸去噪策略,能夠生成更復(fù)雜、更詳細(xì)的描述;而圖像生成則采用并行非自回歸采樣,效率更高。
MMaDA還天然支持圖像修復(fù)和外推功能,無(wú)需額外的微調(diào)。這一特性得益于擴(kuò)散模型的特性,使得這些任務(wù)可以被看作是“被遮蔽Token預(yù)測(cè)”問(wèn)題,而這恰好是MMaDA訓(xùn)練目標(biāo)的一部分。這意味著MMaDA能夠預(yù)測(cè)文本序列中缺失的部分,能夠在給定圖像和部分輸入的情況下補(bǔ)全視覺(jué)問(wèn)答的答案,甚至能夠根據(jù)不完整的視覺(jué)提示進(jìn)行圖像修復(fù)。
MMaDA的誕生,無(wú)疑為多模態(tài)AI領(lǐng)域注入了新的活力。它首次系統(tǒng)地探索了基于擴(kuò)散模型的通用基礎(chǔ)模型設(shè)計(jì)空間,并提出了創(chuàng)新的后訓(xùn)練策略。這一成就不僅展示了擴(kuò)散模型作為下一代多模態(tài)智能基礎(chǔ)范式的巨大潛力,也為AI領(lǐng)域描繪了一個(gè)更加宏大、統(tǒng)一的未來(lái)。