滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

上海交大研究LLM強化學習：Llama與Qwen差異及OctoThinker新突破

時間：2025-07-03 11:13:24 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

在人工智能領域，大型語言模型（LLM）正通過結合任務提示與強化學習（RL）技術，在復雜推理任務上取得顯著進展。Deepseek-R1-Zero等模型直接將強化學習應用于基礎模型，展現出卓越的推理能力。然而，這一成功并未能在所有基礎模型系列中輕松復制，尤其是在Llama系列模型上。

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型，在競賽級數學問題上通過大規模強化學習取得了重大突破，推動了對于小型模型（參數少于千億）強化學習能力的探索。但這些進展大多局限于Qwen模型系列，難以在Llama等模型上重現。預訓練流程的缺乏透明度，使得理解預訓練如何影響強化學習的擴展變得頗具挑戰性。一些非傳統研究發現，一次性提示可以增強Qwen的推理能力，但對Llama模型效果有限。盡管OpenWebMath、MathPile等項目致力于構建高質量的數學預訓練語料庫，但其規模依然有限。

上海交通大學的研究人員針對Qwen和Llama模型，深入探究了中期訓練策略對強化學習動態的影響。他們發現，高質量的數學語料庫，如MegaMath-Web-Pro，能夠同時提升基礎模型和強化學習的效果。使用問答式數據，特別是包含長鏈式推理（Chain-of-Thought, CoT）的數據，可以進一步增強強化學習的效果。然而，長CoT也會在強化學習訓練中引入冗長性和不穩定性。研究還發現，在中期訓練中應用擴展可以提升下游強化學習的性能。

基于這些發現，研究人員提出了一種名為“穩定-衰減”的兩階段中期訓練策略。他們首先使用2000億個token訓練基礎模型，然后在三個以CoT為中心的分支上使用200億個token進行訓練。這一策略成功生成了具有強大強化學習兼容性的OctoThinker模型。

在強化學習配置和基準評估方面，研究人員使用MATH8K數據集進行訓練提示，配置包括全局訓練批次大小128、每個查詢16個rollout響應以及PPO最小批次大小64。實驗在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進行。在評估中，基礎語言模型采用少樣本提示，而強化學習調優模型則在GSM8K、MATH500、OlympiadBench和AMC23等指標任務上采用零樣本提示。

在強化學習訓練期間，Qwen模型的響應長度持續增加并保持在合理范圍內，而Llama模型則表現出異常行為，平均響應長度飆升至4096個token。評估結果顯示，強化學習調優后的Qwen2.5-3B在各個基準測試中均有所提升，而Llama-3.2-3B的提升則微乎其微。

OctoThinker模型在強化學習兼容性方面表現優異。在13個數學基準測試中，每個OctoThinker分支都比原始Llama基礎模型提升了10%-20%，并且在所有規模的穩定階段模型上都取得了持續提升。OctoThinker-Zero系列在強化學習擴展過程中展現出多樣化的思維行為，其中OctoThinker-Long變體表現尤為出色。在比較三個3B規模基礎模型時，OctoThinker-Long-3B的表現優于原始Llama-3.2-3B模型，并與以強大推理能力和廣泛預訓練而聞名的Qwen2.5-3B模型達到相近的性能水平。混合分支和短分支的性能略低，尤其是在更具挑戰性的基準測試中。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

MIT新研究：AI寫作工具使用或致大腦活躍度下滑

07-03

SciArena平臺亮相：科研人員親測，大語言模型科學文獻任務表現大比拼

07-03

谷歌發布Gemini for Education：免費AI工具助力全球教育創新與公平

07-03

榮耀總裁方飛：蘋果入局折疊屏，是激勵也是新起點

07-03

OpenAI堅持英偉達與AMD，暫不全面采用谷歌TPU芯片

07-03

Crunchyroll新動畫字幕出錯，疑似AI生成引熱議，觀眾呼吁保證創作質量

07-03

三星Galaxy Z Fold新機：7月9日震撼發布，16GB+1TB高配來襲

現在的手游和應用不斷升級，對配置的要求越來越高，所以不少品牌推出自研芯片、性能引擎、算法等方面，進一步優化性能，提升新機體驗。新機也被官方稱為三星超輕薄折疊旗艦，看來今年的新折疊屏不斷追求輕薄，甚至是與直板機…

07-03

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片

榮耀Magic V5采用全新AI交互方式，以更輕薄的折疊旗艦形態與行業領先的AI智能體實力，釋放PC級生產力，開啟智能交互體驗的全新想象，用科技拓寬一小時的生命寬度，帶來一輩子的溫暖陪伴。榮耀正式宣布支持MC…

07-03

中國移動新動作：九天人工智能科技公司成立，注冊資本高達20億

07-03

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版

07-03

榮耀Magic V5深度評測：輕薄新紀錄，AI折疊屏新標桿

在多設備聯動上，榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機等智能聯動，不僅支持手表解鎖手機功能以及一鍵鎖定手表，并支持雙向查找，AI體驗同步流轉，在榮耀手表5 Ultra上，也可以直接喚醒…

07-02

榮耀Magic V5震撼發布：纖薄新紀錄，滿血配置售價8999元起

7月2日，榮耀推出了新一代旗艦大折疊手機——榮耀Magic V5，這款手機不僅再創多項大折疊手機纖薄世界紀錄，還具有大折疊滿血配置，并將AI與手機深度融合，搭載更為智慧化的使用方式。在護眼方面，此前在榮耀直板…

07-02

榮耀Magic V5評測：輕薄新巔峰，全能AI折疊屏旗艦重塑標準

在多設備聯動上，榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機等智能聯動，不僅支持手表解鎖手機功能以及一鍵鎖定手表，并支持雙向查找，AI體驗同步流轉，在榮耀手表5 Ultra上，也可以直接喚醒…

07-02

榮耀Magic V5震撼登場：纖薄新紀錄，滿血配置，售價8999元起

7月2日，榮耀推出了新一代旗艦大折疊手機——榮耀Magic V5，這款手機不僅再創多項大折疊手機纖薄世界紀錄，還具有大折疊滿血配置，并將AI與手機深度融合，搭載更為智慧化的使用方式。在護眼方面，此前在榮耀直板…

07-02

榮耀Magic V5深度評測：輕薄新標桿，AI折疊屏的全面進化

07-02

點擊查看更多 +

全站最新

2025云手機市場風向：蜂窩云手機以高性價比全場景方案領跑

2025年云手機推薦：五大品牌性能比拼，性價比之選揭曉

宇宙信使：揭秘玻璃隕石的奧秘與魅力

2025上半年機票均價740元，暑運旺季來臨價格上揚至839元

美波音737客機飛行中襟翼掉落疑似墜入居民區車道

熱門內容

本欄最新

三星Galaxy Z Fold新機：7月9日震撼發布，16GB+1TB高配來襲

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片

中國移動新動作：九天人工智能科技公司成立，注冊資本高達20億

榮耀Magic V5震撼發布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版

榮耀Magic V5深度評測：輕薄新紀錄，AI折疊屏新標桿

榮耀Magic V5震撼發布：纖薄新紀錄，滿血配置售價8999元起

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

上海交大研究LLM強化學習：Llama與Qwen差異及OctoThinker新突破

日本精品一区二区三区高清久久