摩爾線程人工智能研究團隊近日在國際頂級學術會議AAAI2026上宣布,其開發的URPO(統一獎勵與策略優化)框架為大型語言模型訓練開辟了新路徑。這項創新技術通過整合訓練流程中的關鍵環節,有效提升了模型性能與訓練效率,在學術界和產業界引發廣泛關注。
研究團隊在論文《URPO:面向大型語言模型的統一獎勵與策略優化框架》中提出,傳統訓練方法需依賴獨立模塊分別處理指令理解與結果評估,而URPO框架創造性地將這兩種功能集成于單一模型。這種設計使模型在生成響應的同時,能夠自主評估輸出質量,形成閉環優化機制。實驗表明,該框架顯著減少了訓練過程中的信息損耗,提升了參數更新效率。
技術實現層面,URPO框架突破了三大核心難題。研究團隊首先構建了通用數據轉換協議,將偏好數據、推理驗證數據和開放式指令數據統一編碼為標準化訓練信號,解決了多模態數據兼容性問題。其次,通過引入自我獎勵機制,模型在生成多個候選答案后,可基于預設標準進行內部評分,并將評分結果直接用于策略優化,形成持續改進的增強循環。最后,協同進化算法通過動態調整三類數據的混合比例,使模型的生成能力與評估能力同步提升,避免出現能力偏科現象。
基于Qwen2.5-7B模型的驗證顯示,URPO框架在多個基準測試中表現優異。在Alpacaeval指令跟隨評測中,模型得分從基線水平的38.21提升至44.84;綜合推理能力測試平均分提高3分,達到35.66。更引人注目的是,該模型在RewardBench獎勵模型評測中以85.15分超越專用獎勵模型的83.55分,證明其評估能力達到行業領先水平。這些數據表明,URPO框架在簡化訓練架構的同時,實現了性能的全面突破。
產業化應用方面,摩爾線程已完成URPO框架與自主計算卡的深度適配,并實現與主流強化學習框架VERL的無縫集成。測試數據顯示,優化后的訓練系統在計算資源利用率上提升40%,訓練周期縮短35%,為大規模模型部署提供了高效解決方案。這項成果不僅鞏固了企業在AI基礎設施領域的領先地位,也為行業提供了可復制的技術范式。

















