在人工智能領域,一項突破性技術正引發廣泛關注。清華大學研究團隊開發出名為DEER的創新框架,通過重構文本生成流程,成功實現大語言模型推理速度2至5倍的提升,同時保持輸出質量完全不變。這項成果已發表于學術預印本平臺,為解決AI響應延遲問題提供了全新思路。
傳統大語言模型采用自回歸生成機制,如同逐字書寫的作家,每個字符的生成都需等待前序內容確定。這種串行處理模式在復雜推理任務中會導致顯著延遲,尤其在處理長文本時,等待時間呈指數級增長。研究團隊通過類比多米諾骨牌效應指出,現有加速方案雖嘗試引入輔助模型,但因同樣依賴逐字生成機制,反而加劇了錯誤累積問題。
DEER技術的核心創新在于引入擴散語言模型作為草稿生成器。不同于傳統方法,該模型采用并行生成策略,通過"去噪"過程將隨機分布的字符碎片重組為完整句子。實驗數據顯示,這種模式可一次性生成32個詞的完整片段,較傳統方法8-10詞的生成長度實現質的飛躍。研究團隊特別強調,由于各字符生成相互獨立,有效避免了錯誤傳播的連鎖反應。
為確保草稿質量,研究團隊設計了雙階段訓練體系。首階段通過隨機截斷文本并添加標記的方式,訓練模型續寫能力;次階段采用指數衰減權重策略,強化草稿與目標模型在關鍵位置的契合度。這種訓練方式使擴散模型既能保持創作自由度,又能精準匹配目標模型的輸出特征。
驗證機制方面,DEER沿用投機解碼框架但進行關鍵改進。目標模型對草稿實施逐詞檢驗,通過計算接受概率決定保留或重寫。得益于擴散模型的抗誤差特性,即使處理長文本,后續字符的接受率仍保持高位。數學證明顯示,該系統輸出的文本分布與直接使用目標模型完全一致,從理論層面確保質量無損。
基準測試數據充分驗證技術優勢。在代碼生成任務中,DEER使Qwen3-30B模型在Humaneval測試集上的處理速度提升5.54倍,超越現有最優方法EAGLE-3的2.41倍。數學推理測試同樣表現優異,GSM8K基準上實現2.23倍加速。特別值得注意的是,隨著模型規模擴大,DEER的性能優勢愈發顯著,在30B參數模型上展現出更強適用性。
批量處理場景下的表現同樣令人矚目。面對16個并發請求時,系統吞吐量達到175.66 tokens/秒,較傳統方法提升353%。研究團隊還發現意外收獲:訓練后的擴散模型具備可靠的塊再生成能力,可基于部分代碼片段補全完整模塊,這種能力在代碼修復和創意寫作領域具有潛在應用價值。
技術實現層面,研究團隊采用模塊化設計降低系統復雜度。擴散模型僅增加470M參數開銷,內存訪問模式經過優化后更適應現代GPU架構。雖然當前推理框架尚不完全支持擴散模型特性,但隨著Fast-dLLM等新技術的成熟,系統性能有望進一步提升。研究團隊已公開核心算法原理,為后續開發奠定理論基礎。
這項突破不僅體現在速度提升,更開創了模型協作新范式。通過將并行生成與串行驗證相結合,DEER證明不同架構的AI模型可形成優勢互補。這種設計思路為擴散模型在自然語言處理領域的應用開辟新路徑,未來可能催生代碼生成、實時對話等場景的革命性應用。隨著研究團隊承諾開源核心代碼,這項技術有望快速滲透至各類AI服務中。











