近日,人工智能領域迎來一項突破性進展——THINKING MACHINES團隊開源了一種名為“在線策略蒸餾”(On-Policy Distillation)的新型大語言模型后訓練方法。該方法通過融合強化學習與監督微調的優勢,在數學推理、個性化知識遷移等場景中展現出顯著效率提升,相關技術細節已在其官方博客公開。
傳統模型后訓練通常面臨兩種范式的權衡:強化學習(RL)雖能通過試錯學習直接修正錯誤,但依賴稀疏的最終結果反饋,導致訓練效率低下;監督微調(SFT)通過密集的逐詞指導加速學習,卻容易因數據分布偏差引發復合誤差。在線策略蒸餾創新性地將兩者結合,其核心在于利用高性能教師模型對學生模型的每一步生成進行實時評分,將稀疏的最終獎勵轉化為密集的過程獎勵。
技術實現層面,該方法通過四個關鍵步驟構建訓練框架:首先部署高性能教師模型作為獨立評分模塊,僅計算概率而不參與梯度更新;其次讓學生模型自主生成完整回答序列,并記錄每一步的對數概率;隨后教師模型對相同上下文下的生成結果進行逐詞評估,計算學生與教師策略的KL散度差異;最終將逆向KL散度作為懲罰信號,驅使學生模型減少與教師行為的偏差。
實驗數據顯示,在線策略蒸餾在數學推理任務中實現驚人效率提升。以Qwen3系列模型為例,將32B參數教師模型的能力遷移至8B學生模型時,該方法僅需150個訓練步驟即可將AIME'24數學競賽基準得分從60%提升至70%,綜合計算效率較傳統強化學習提高50-100倍,較純監督微調降低9-30倍成本。這種效率優勢源于教師模型對關鍵錯誤路徑的精準識別——例如在物理常識推理中,系統能優先懲罰導致邏輯鏈斷裂的早期錯誤,而非僅關注最終答案。
在模型個性化場景中,在線策略蒸餾同樣表現出色。研究團隊模擬企業知識庫遷移實驗時發現,傳統監督微調在注入新知識過程中會導致模型原有指令遵循能力大幅下降(從85%跌至45%)。而采用兩階段訓練策略:先通過監督微調學習新知識,再利用原始模型作為教師進行在線策略蒸餾,可使指令遵循能力恢復至83%,同時新知識掌握度從36%提升至41%,有效解決了災難性遺忘問題。
從信息論視角分析,在線策略蒸餾的效率突破源于其逐詞監督機制。相比強化學習每個訓練回合僅提供O(1)比特信息,該方法每個序列可提供O(N)比特過程信息(N為序列長度)。這種密集反饋使得模型在長序列任務中能更精準地定位錯誤根源,例如在數學證明中可區分計算錯誤與邏輯漏洞。實驗表明,僅使用單個訓練提示通過多輪蒸餾,學生模型性能即可接近使用海量數據訓練的教師模型水平。
技術實現層面,該方法已通過Tinker訓練API完成驗證,其核心優勢在于教師模型僅需計算對數概率而無需反向傳播,極大降低了計算開銷。研究團隊特別指出,逆向KL散度作為損失函數具有不可被利用特性,可避免傳統獎勵模型被“欺騙”的問題,同時驅動模型學習教師特定的行為模式而非次優策略。
目前,該技術已開源完整實現代碼,開發者可通過GitHub訪問Tinker Cookbook中的蒸餾模塊。這項突破為資源受限場景下的模型定制提供了新思路,特別是在需要持續學習新知識的企業應用中,其交替訓練模式(監督微調注入知識+在線策略蒸餾恢復能力)展現出顯著優勢。隨著更多實踐案例的積累,在線策略蒸餾有望成為推動大語言模型實用化的關鍵技術之一。











