香港中文大學明瑞、吳昊原團隊聯合華為諾亞方舟實驗室與ChatEDA科技公司,在人工智能訓練領域取得突破性進展。這項發表于arXiv預印本平臺的研究(編號:arXiv:2509.26313v1),提出一種名為"單詞匯滾動"的創新訓練方法,有效解決了AI模型在知識學習與泛化能力之間的平衡難題。
傳統AI訓練存在顯著的兩難困境:監督微調雖能快速讓模型掌握標準答案,但面對新問題時往往束手無策;強化學習雖能培養泛化能力,卻需要海量計算資源和漫長訓練周期。研究團隊通過類比人類學習過程發現,關鍵在于讓AI在"動態實踐"中學習,而非單純模仿靜態樣本。
新方法的核心創新在于將文本生成過程分解為數百個獨立的詞匯級學習任務。當AI需要生成下一個詞匯時,系統會從其概率分布中隨機抽取256個候選詞,通過與標準答案對比即時評估選擇質量。這種設計使每個詞匯生成都成為完整的學習循環,既保持了監督微調的效率,又獲得了強化學習的泛化優勢。
實驗數據顯示,在Qwen2.5-3B至Qwen3-8B四個不同規模模型上,新方法均取得顯著提升。以Qwen3-4B為例,MATH基準測試分數從63.95躍升至75.30,奧林匹克數學競賽基準從32.10提升至40.63。更關鍵的是,該方法將傳統訓練中常見的"災難性遺忘"現象發生率從10次降至4次,且性能下降幅度明顯減小。
技術實現層面,研究團隊將復雜的策略梯度理論簡化為詞匯級操作。每個候選詞匯根據匹配情況獲得即時反饋:正確選擇得+1分,錯誤選擇扣0.1分。這種二元獎勵機制配合動態調整的采樣頻率,使模型在訓練過程中自動形成正向學習循環。通過引入"溫度調節"參數,系統還能平衡探索與利用,避免陷入局部最優。
與同期提出的動態微調方法相比,新方法展現出獨特優勢。當懲罰參數β設為0時,兩者數學等價;但β取-0.1時,新方法通過顯式建模錯誤選擇,使所有測試任務的性能進一步提升。這種改進源于對負樣本的有效利用,幫助AI建立更清晰的選擇標準。
跨領域測試驗證了方法的通用性。在代碼生成任務中,Humaneval+基準分數平均提升3.8分,MBPP+提升2分;通用推理測試如MMLU-Pro也表現出穩定改進。這些結果證明,新方法培養的不僅是特定領域技能,更是深層的語言理解和邏輯推理能力。
深入分析揭示,成功關鍵在于適度懲罰機制的設計。β=-0.1時,系統既能提供明確的學習信號,又不會抑制探索行為。訓練過程中,正確詞匯的采樣頻率持續上升,形成健康的學習曲線。相比之下,傳統方法的學習效率明顯較低,而β=0.1的正向激勵設置則導致訓練不穩定。
盡管當前研究主要在80億參數以下模型展開,且數據集集中于數學推理領域,但跨任務表現已顯示良好泛化性。研究團隊正著手擴展至更大規模模型和更多專業領域,同時優化獎勵機制以捕捉更細致的質量差異。計算成本方面,雖然仍高于標準監督微調,但已比傳統強化學習降低一個數量級。
這項突破為AI訓練開辟了新路徑。在教育輔助領域,該方法訓練的模型能更準確地解釋錯誤原因;在代碼開發中,可顯著減少程序漏洞;在專業咨詢服務里,有望提高關鍵領域建議的可靠性。隨著技術成熟和成本下降,這些應用場景將逐步從實驗室走向現實產品。
問:單詞匯滾動方法如何解決AI訓練的效率與泛化矛盾?答:該方法通過將完整文本生成分解為詞匯級學習任務,使每個詞匯選擇都成為獨立的學習機會。AI在生成過程中持續接收即時反饋,既保持了監督微調的高效性,又通過動態數據采樣獲得了強化學習的泛化能力。
問:新方法在防止模型"遺忘"舊知識方面表現如何?答:實驗顯示,傳統監督微調在10個測試場合出現性能下降,而新方法僅發生4次且幅度更小。這得益于其動態學習機制,使模型在掌握新知識的同時能更好保留已有能力。
問:普通開發者何時能應用這項技術?答:目前該方法仍處于研究階段,計算成本雖已大幅降低但仍高于標準訓練。隨著技術優化和硬件發展,預計未來3-5年內將逐步應用于教育、編程輔助等實際場景,幫助開發者提升工作效率和輸出質量。











