蘋果公司與俄亥俄州立大學科研團隊近日共同發(fā)布了一項語言模型領域的突破性成果——名為“少步離散流匹配”(FS-DFM)的新型生成模型。該模型通過創(chuàng)新算法設計,在保持長文本生成質量的同時,將迭代次數從傳統(tǒng)模型的千次級壓縮至8次,生成效率較同類技術提升最高達128倍,為大規(guī)模語言模型的高效應用開辟了新路徑。
作為擴散模型的改進版本,FS-DFM的核心創(chuàng)新在于三階段動態(tài)優(yōu)化機制。研究團隊首先通過多尺度訓練策略,使模型具備適應不同迭代次數的自適應能力;其次,引入“教師-學生”模型架構,利用預訓練的高精度模型作為引導,確保每次迭代都能精準修正生成方向;最后,通過優(yōu)化迭代路徑的離散化設計,大幅減少無效計算步驟。這種分層優(yōu)化策略使得模型在極低迭代次數下仍能保持輸出穩(wěn)定性。
實驗數據顯示,FS-DFM在參數量僅為1.7億至17億的輕量化配置下,性能表現顯著優(yōu)于參數量數十倍的現有模型。與70億參數的Dream模型和80億參數的LLaDA模型對比測試中,該模型在困惑度(Perplexity)和熵值(Entropy)兩項核心指標上均取得更優(yōu)結果,生成的文本不僅語義連貫性更強,且在長距離依賴場景下的邏輯一致性提升明顯。特別是在需要保持上下文連貫性的長文本生成任務中,FS-DFM展現出了獨特的效率優(yōu)勢。
這項研究通過算法層面的范式革新,為語言模型的大規(guī)模應用提供了新的技術路線。其核心價值在于突破了傳統(tǒng)模型“以算力換質量”的固有模式,在顯著降低計算資源消耗的同時,保持甚至提升了生成質量。隨著模型輕量化與效率提升的雙重突破,該技術有望在實時交互、動態(tài)內容生成等對響應速度要求嚴苛的場景中發(fā)揮關鍵作用。












