日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

上海交大研究LLM強化學習:Llama與Qwen差異及OctoThinker新突破

   時間:2025-07-03 11:13:24 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

在人工智能領域,大型語言模型(LLM)正通過結合任務提示與強化學習(RL)技術,在復雜推理任務上取得顯著進展。Deepseek-R1-Zero等模型直接將強化學習應用于基礎模型,展現出卓越的推理能力。然而,這一成功并未能在所有基礎模型系列中輕松復制,尤其是在Llama系列模型上。

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在競賽級數學問題上通過大規模強化學習取得了重大突破,推動了對于小型模型(參數少于千億)強化學習能力的探索。但這些進展大多局限于Qwen模型系列,難以在Llama等模型上重現。預訓練流程的缺乏透明度,使得理解預訓練如何影響強化學習的擴展變得頗具挑戰性。一些非傳統研究發現,一次性提示可以增強Qwen的推理能力,但對Llama模型效果有限。盡管OpenWebMath、MathPile等項目致力于構建高質量的數學預訓練語料庫,但其規模依然有限。

上海交通大學的研究人員針對Qwen和Llama模型,深入探究了中期訓練策略對強化學習動態的影響。他們發現,高質量的數學語料庫,如MegaMath-Web-Pro,能夠同時提升基礎模型和強化學習的效果。使用問答式數據,特別是包含長鏈式推理(Chain-of-Thought, CoT)的數據,可以進一步增強強化學習的效果。然而,長CoT也會在強化學習訓練中引入冗長性和不穩定性。研究還發現,在中期訓練中應用擴展可以提升下游強化學習的性能。

基于這些發現,研究人員提出了一種名為“穩定-衰減”的兩階段中期訓練策略。他們首先使用2000億個token訓練基礎模型,然后在三個以CoT為中心的分支上使用200億個token進行訓練。這一策略成功生成了具有強大強化學習兼容性的OctoThinker模型。

在強化學習配置和基準評估方面,研究人員使用MATH8K數據集進行訓練提示,配置包括全局訓練批次大小128、每個查詢16個rollout響應以及PPO最小批次大小64。實驗在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進行。在評估中,基礎語言模型采用少樣本提示,而強化學習調優模型則在GSM8K、MATH500、OlympiadBench和AMC23等指標任務上采用零樣本提示。

在強化學習訓練期間,Qwen模型的響應長度持續增加并保持在合理范圍內,而Llama模型則表現出異常行為,平均響應長度飆升至4096個token。評估結果顯示,強化學習調優后的Qwen2.5-3B在各個基準測試中均有所提升,而Llama-3.2-3B的提升則微乎其微。

OctoThinker模型在強化學習兼容性方面表現優異。在13個數學基準測試中,每個OctoThinker分支都比原始Llama基礎模型提升了10%-20%,并且在所有規模的穩定階段模型上都取得了持續提升。OctoThinker-Zero系列在強化學習擴展過程中展現出多樣化的思維行為,其中OctoThinker-Long變體表現尤為出色。在比較三個3B規模基礎模型時,OctoThinker-Long-3B的表現優于原始Llama-3.2-3B模型,并與以強大推理能力和廣泛預訓練而聞名的Qwen2.5-3B模型達到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑戰性的基準測試中。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 栖霞市| 四会市| 赤城县| 会同县| 博罗县| 东光县| 博客| 小金县| 康保县| 镇安县| 武定县| 轮台县| 郸城县| 盐山县| 南丰县| 玉门市| 嘉鱼县| 杭锦后旗| 南皮县| 纳雍县| 房产| 靖州| 尖扎县| 饶阳县| 囊谦县| 上思县| 舒城县| 杨浦区| 石楼县| 富锦市| 阜平县| 合水县| 颍上县| 格尔木市| 炉霍县| 城口县| 宣汉县| 安新县| 彭阳县| 宁乡县| 通辽市|