生成式AI領域長期面臨一個核心難題:如何在保證生成質量的同時提升生成速度。傳統(tǒng)擴散模型通過迭代去噪實現(xiàn)高保真輸出,但需要大量計算步數(shù);而少步生成模型雖能快速出圖,卻往往陷入質量瓶頸。近日,一項名為Transition Model(TiM)的新研究提出突破性解決方案,通過重構生成模型的訓練范式,首次實現(xiàn)質量與速度的同步提升。
研究團隊指出,現(xiàn)有技術路線存在根本性矛盾。擴散模型依賴對無窮小時間步的瞬時動力學監(jiān)督,導致采樣時必須使用極小步長或復雜求解器,計算量(NFEs)居高不下。而少步生成模型(如Consistency/Shortcut系列)通過端點映射實現(xiàn)快速生成,卻因缺失中間動力學細節(jié),增加步數(shù)后質量提升迅速飽和。這種"局部監(jiān)督"與"全局端點監(jiān)督"的二元對立,成為制約生成模型發(fā)展的關鍵瓶頸。
TiM的創(chuàng)新在于徹底重構訓練目標。該模型不再局限于單一時刻的瞬時速度場或固定區(qū)間的端點映射,而是直接建模任意兩個時間點之間的完整狀態(tài)轉移。通過推導"通用狀態(tài)轉移恒等式",TiM能夠描述任意時間間隔內的狀態(tài)演變規(guī)律,從而支持靈活調整的單步步長和多段細化軌跡。這種設計使模型在理論上具備無限步長采樣能力,可根據(jù)需求動態(tài)平衡生成速度與質量。
數(shù)學本質層面,TiM實現(xiàn)了從局部解到全局流形的跨越。傳統(tǒng)擴散模型求解的是局部PF-ODE的數(shù)值解,Meanflow等模型則局限于平均速度場的解集。而TiM通過建模任意時間區(qū)間的狀態(tài)轉移,構建出全局生成路徑的解流形,在特殊情況下可退化為平均速度場,但通常包含更豐富的動力學信息。這種全局視角使模型既能保持少步生成的效率,又能通過多段細化持續(xù)提升質量。
在圖文生成任務的實證研究中,865M參數(shù)的TiM模型展現(xiàn)出驚人性能。在Geneval數(shù)據(jù)集上,該模型不僅在少步生成時明確超越12B參數(shù)的FLUX.1-Schnell蒸餾模型,其質量上限更超過同量級的FLUX.1-Dev模型。特別值得關注的是,TiM通過原生分辨率預訓練策略,實現(xiàn)了對不同分辨率和橫縱比的靈活適配,這在傳統(tǒng)模型中需要額外調整才能實現(xiàn)。
訓練方法的革新是TiM成功的另一關鍵。針對傳統(tǒng)方法依賴雅可比-向量乘積(JVP)導致的計算瓶頸,研究團隊提出差分推導方程(DDE)。這種基于有限差分的前向計算方式,計算效率比JVP提升近2倍,且完全兼容FlashAttention和FSDP等分布式訓練框架,使十億參數(shù)級模型的訓練成為可能。在穩(wěn)定性優(yōu)化方面,通過引入時間重參化加權策略,優(yōu)先處理短間隔轉移任務,有效降低了大時間跨度下的梯度方差,使訓練過程更加穩(wěn)健。
實驗數(shù)據(jù)顯示,TiM在多分辨率測試中展現(xiàn)出卓越的適應性。當推理步數(shù)(NFE)從8步增加到64步時,模型質量持續(xù)穩(wěn)定提升,而傳統(tǒng)模型在32步后即出現(xiàn)質量飽和。這種可擴展性使TiM能夠根據(jù)實際需求動態(tài)調整生成策略,在移動端等計算資源受限場景中可采用少步生成,在專業(yè)創(chuàng)作領域則可通過增加步數(shù)獲取更高質量結果。