日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

Token-Shuffle突破!自回歸模型也能高效生成高清圖像

   時間:2025-04-26 15:05:02 來源:ITBEAR編輯:快訊團隊 IP:北京 發(fā)表評論無障礙通道

近日,科技新聞界傳來一則關于meta AI創(chuàng)新進展的報道。據報道,meta AI研發(fā)了一種名為Token-Shuffle的新方法,旨在解決自回歸(AR)模型在生成高分辨率圖像時所面臨的挑戰(zhàn)。

自回歸模型是一種在時間序列分析中廣泛應用的統(tǒng)計方法,它基于歷史數據預測未來值。近年來,這種方法在語言生成領域取得了顯著成就,并逐漸應用于圖像合成。然而,在處理高分辨率圖像時,AR模型遇到了瓶頸。與文本生成相比,圖像合成需要處理數千個token,導致計算成本急劇增加,限制了AR模型在精細圖像生成中的應用。

盡管擴散模型在高分辨率圖像生成方面表現出色,但其復雜的采樣過程和較慢的推理速度也成為其應用的局限。因此,meta AI推出的Token-Shuffle方法顯得尤為重要。

Token-Shuffle的核心機制在于解決token效率問題。該方法通過識別多模態(tài)大語言模型(MLLMs)中視覺詞匯的維度冗余,提出了一種創(chuàng)新策略:在Transformer處理前,將空間上相鄰的視覺token沿通道維度合并,推理后再恢復原始空間結構。這種token融合機制不僅降低了計算成本,還保持了視覺質量,使自回歸模型能夠高效處理最高達2048×2048分辨率的圖像。

具體來說,Token-Shuffle包括兩個關鍵步驟:token-shuffle和token-unshuffle。在輸入準備階段,通過多層感知機(MLP)將空間相鄰的token壓縮為單個token,從而減少token數量。以窗口大小s為例,token數量可減少到原來的s2分之一,顯著降低了Transformer的計算量。

Token-Shuffle還引入了針對自回歸生成的classifier-free guidance(CFG)調度器,動態(tài)調整引導強度,優(yōu)化文本-圖像對齊效果。這一創(chuàng)新不僅提升了圖像生成的質量,還為AR模型在高分辨率圖像生成領域樹立了新的標桿。

在實驗中,Token-Shuffle展現了強大的實力。在GenAI-Bench基準測試中,基于2.7B參數的LLaMA模型,Token-Shuffle在“困難”提示下取得了VQAScore 0.77,超越了其他AR模型如LlamaGen和擴散模型LDM。同時,在Geneval基準測試中,Token-Shuffle的綜合得分為0.62,為AR模型樹立了新的標準。

用戶評估也顯示,盡管在邏輯一致性方面略遜于擴散模型,但Token-Shuffle在文本對齊和圖像質量上優(yōu)于LlamaGen和Lumina-mGPT。這一成果不僅為圖像合成領域帶來了新的突破,也為未來AR模型在更高分辨率圖像生成中的應用提供了可能。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 仙居县| 循化| 英山县| 揭阳市| 监利县| 凤阳县| 闻喜县| 孟州市| 福安市| 肃南| 和政县| 夏邑县| 平安县| 武汉市| 邓州市| 正安县| 武宣县| 故城县| 桦甸市| 临沭县| 福泉市| 永胜县| 海南省| 齐河县| 历史| 刚察县| 龙游县| 牡丹江市| 嘉定区| 富宁县| 大名县| 盐津县| 江孜县| 关岭| 河池市| 平度市| 临沭县| 苗栗县| 和硕县| 浦东新区| 文化|