在人工智能生成內(nèi)容(AIGC)領(lǐng)域,擴(kuò)散概率生成模型憑借其卓越的生成能力占據(jù)主導(dǎo)地位,從文生圖到文生視頻,擴(kuò)散模型的應(yīng)用不斷拓展。然而,推理速度慢、訓(xùn)練與推理差異大以及優(yōu)化困難等問(wèn)題,始終制約著其更廣泛的應(yīng)用。近日,一項(xiàng)突破性研究為解決這些難題帶來(lái)了全新思路。
傳統(tǒng)擴(kuò)散模型生成高質(zhì)量?jī)?nèi)容往往需要數(shù)十甚至上百步迭代,從純?cè)肼曋兄鸩交謴?fù)圖像。這帶來(lái)了兩個(gè)核心矛盾:一是推理效率與生成質(zhì)量的難以平衡,減少迭代步數(shù)會(huì)導(dǎo)致畫質(zhì)下降,而追求高質(zhì)量又需忍受漫長(zhǎng)生成時(shí)間;二是理論與實(shí)踐的脫節(jié),為加速推理,業(yè)界提出多種基于微分方程(ODE)的求解器,但這些方法多為數(shù)值近似技巧,缺乏對(duì)擴(kuò)散過(guò)程本質(zhì)的解釋,且許多加速算法依賴參考軌跡優(yōu)化,增加了計(jì)算開銷并限制了模型泛化能力。
針對(duì)這些問(wèn)題,一項(xiàng)被NeurIPS 2025接收的論文提出全新解法。研究團(tuán)隊(duì)跳出傳統(tǒng)數(shù)值求解思維,從信息感知推理視角出發(fā),將去噪過(guò)程重構(gòu)為實(shí)時(shí)熵減優(yōu)化問(wèn)題。該研究指出,擴(kuò)散模型的前向擴(kuò)散過(guò)程是向圖像加噪,熵不斷增加;反向去噪過(guò)程則是從混亂中恢復(fù)秩序,條件熵應(yīng)不斷降低。基于此,研究團(tuán)隊(duì)提出“免參考”的自適應(yīng)方差優(yōu)化框架——EVODiff。
在擴(kuò)散模型社區(qū),一直存在一個(gè)經(jīng)驗(yàn)性共識(shí):推理生成時(shí),直接預(yù)測(cè)干凈數(shù)據(jù)(Data Prediction)的參數(shù)化方案比預(yù)測(cè)噪聲(Noise Prediction)的推理范式效果更好,尤其在低步數(shù)下更為顯著。這一現(xiàn)象與MIT何愷明團(tuán)隊(duì)最新發(fā)布的JiT架構(gòu)核心洞察不謀而合。何愷明團(tuán)隊(duì)從“流形假設(shè)”角度指出,自然數(shù)據(jù)位于低維流形,噪聲彌漫于高維空間,神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)干凈數(shù)據(jù)比預(yù)測(cè)噪聲更容易。而此次研究在數(shù)學(xué)層面為這一趨勢(shì)提供了堅(jiān)實(shí)理論支撐,首次嚴(yán)格證明“數(shù)據(jù)預(yù)測(cè)參數(shù)化”能更直接最小化重建誤差,更有效降低條件熵。
為在迭代中更高效降低數(shù)據(jù)預(yù)測(cè)的條件熵,EVODiff回顧擴(kuò)散模型高斯建模中條件熵與條件方差正相關(guān)的特點(diǎn),即每一步推理中動(dòng)態(tài)調(diào)整方差至最小,就能最快逼近真實(shí)圖像。基于此,EVODiff構(gòu)建“無(wú)參考”自適應(yīng)優(yōu)化框架,無(wú)需昂貴預(yù)計(jì)算參考軌跡,僅利用當(dāng)前迭代步驟狀態(tài)差異,通過(guò)計(jì)算開銷極低的閉式解,動(dòng)態(tài)實(shí)時(shí)計(jì)算最優(yōu)方差控制參數(shù),確保每一步朝最高效收斂路徑前進(jìn)。
EVODiff不僅是一個(gè)理論框架,更是一套可直接落地的實(shí)時(shí)指導(dǎo)算法。其核心特性顯著:一是“免參考”的極致輕量化,與需預(yù)先計(jì)算高成本軌跡的方法不同,它依靠在線計(jì)算,利用當(dāng)前迭代步驟狀態(tài)差異動(dòng)態(tài)優(yōu)化方差,無(wú)額外訓(xùn)練成本和預(yù)處理開銷;二是閉式解的極速計(jì)算,許多優(yōu)化算法需復(fù)雜迭代求解,拖慢推理速度,而EVODiff推導(dǎo)出方差優(yōu)化目標(biāo)的閉式解,獲取最優(yōu)參數(shù)幾乎不消耗計(jì)算資源,實(shí)驗(yàn)顯示其在獲得SOTA畫質(zhì)時(shí),推理時(shí)間略快于DPM-Solver++;三是普適性,無(wú)論是像素空間傳統(tǒng)擴(kuò)散模型、隱空間擴(kuò)散模型,還是不同噪聲調(diào)度策略,EVODiff都能無(wú)縫適配并帶來(lái)提升。
實(shí)驗(yàn)數(shù)據(jù)充分證明EVODiff的優(yōu)越性。在CIFAR - 10(EDM模型)上,極低步數(shù)(NFE = 10)挑戰(zhàn)下,基準(zhǔn)方法DPM - Solver++的FID為5.10,EVODiff的FID達(dá)到2.78,錯(cuò)誤率降低45.5%;在ImageNet - 256(ADM模型)高分辨率圖像生成中,傳統(tǒng)方法需20 NFE達(dá)到SOTA級(jí)畫質(zhì),EVODiff僅需15 NFE,效率提升25%;在LSUN - Bedrooms(隱空間擴(kuò)散模型)上,相比UniPC,EVODiff在5 NFE下FID分?jǐn)?shù)提升43.4%,生成速度提升5.3%,表明其不僅適用于學(xué)術(shù)小模型,更能賦能Stable Diffusion等工業(yè)級(jí)大模型。
在視覺(jué)效果上,EVODiff提升更為直觀。在文本生成圖像任務(wù)中,低步數(shù)推理常導(dǎo)致圖像結(jié)構(gòu)崩壞,如生成扭曲肢體或模糊背景。以提示詞“An astronaut riding a horse”(宇航員騎馬)為例,競(jìng)品方法在低步數(shù)下馬匹常出現(xiàn)“五條腿”等解剖學(xué)錯(cuò)誤,宇航員與馬融合不自然;而EVODiff生成的圖像結(jié)構(gòu)嚴(yán)謹(jǐn),馬匹四肢正常,光影過(guò)渡自然,展現(xiàn)極高語(yǔ)義對(duì)齊度和視覺(jué)連貫性。德國(guó)AI公司Mindverse專題報(bào)道指出,EVODiff在文本生成圖像任務(wù)中,即使使用簡(jiǎn)單提示詞,也能生成更自然、更一致、偽影更少的圖像。











