圖像生成領(lǐng)域迎來新突破,MiniMax海螺視頻團隊近日開源的視覺分詞器預訓練框架VTP(Visual Tokenizer Pre-training)引發(fā)行業(yè)關(guān)注。這項研究直指當前兩階段生成框架的核心痛點——為何在視覺分詞器階段投入再多算力,也難以顯著提升最終生成效果?團隊通過實驗證明,傳統(tǒng)自編碼器(AE)的純重建訓練范式存在根本性局限,而VTP提出的"理解、重建、生成"聯(lián)合優(yōu)化方案,首次展示了視覺分詞器的Scaling Law。
在主流的兩階段生成框架中,視覺分詞器承擔著將原始圖像壓縮到潛在空間的關(guān)鍵任務。傳統(tǒng)方法過度追求像素級重建精度,導致模型沉迷于捕捉局部紋理和噪點等低層信息,卻忽視了生成任務依賴的高層語義與整體結(jié)構(gòu)。這種"只見樹木不見森林"的訓練方式,使得生成模型在面對新場景時表現(xiàn)乏力。研究數(shù)據(jù)顯示,單純提升重建能力的自編碼器,其生成性能在算力投入增加后反而趨于飽和甚至下降。
VTP框架的突破性在于重新定義了視覺分詞器的訓練目標。團隊構(gòu)建了包含圖文對比學習、自監(jiān)督學習和重建任務的多目標優(yōu)化體系:通過CLIP風格的圖文對比學習,強制模型在壓縮圖像時保留與文本對齊的語義結(jié)構(gòu);結(jié)合掩碼圖像建模和自蒸餾技術(shù),迫使模型理解圖片的空間關(guān)系和物體結(jié)構(gòu);最后保留必要的重建目標,確保潛在空間包含生成所需的底層細節(jié)。這種設(shè)計使視覺分詞器產(chǎn)出的潛在表示自帶語義理解能力,成為對生成模型更友好的"結(jié)構(gòu)化視覺語言"。
實驗結(jié)果驗證了新框架的有效性。在同等算力條件下,VTP訓練的模型在ImageNet零樣本分類準確率達到78.2%,超越原版CLIP的75.5%;重建能力rFID低至0.36,優(yōu)于Stable Diffusion的VAE;生成質(zhì)量gFID降至2.81,顯著優(yōu)于此前改進方法VA-VAE。更關(guān)鍵的是,VTP展現(xiàn)出明確的Scaling Law——當預訓練計算量增加時,生成性能持續(xù)提升且曲線未觸頂,而傳統(tǒng)自編碼器在投入約1/10計算量時性能已飽和。
這種可擴展性為行業(yè)提供了新思路。團隊指出,視覺表征的統(tǒng)一是更本質(zhì)的統(tǒng)一,VTP在潛在空間層面實現(xiàn)了語義對齊、結(jié)構(gòu)認知和細節(jié)表達的融合。這種統(tǒng)一視覺語言為構(gòu)建"理解-生成統(tǒng)一模型"奠定基礎(chǔ),下游任務無需重復學習基礎(chǔ)表達,只需在不同方向進行微調(diào)。目前VTP已開源論文和模型權(quán)重,開發(fā)者可通過替換視覺分詞器實現(xiàn)模型性能的倍數(shù)級提升,且無需改動下游主模型的訓練配置。
該研究的實踐價值在于重新定位了視覺分詞器的角色。傳統(tǒng)觀點認為其僅是前置模塊,而VTP證明通過結(jié)構(gòu)化表征學習,視覺分詞器同樣具備成為性能提升主力的潛力。這種認知轉(zhuǎn)變可能引發(fā)行業(yè)資源分配的調(diào)整——在繼續(xù)優(yōu)化主模型的同時,視覺分詞器的預訓練將成為新的競爭焦點。隨著VTP框架的普及,圖像生成領(lǐng)域有望突破當前瓶頸,向更高效、更通用的方向發(fā)展。










