在人工智能領(lǐng)域的一項(xiàng)最新突破中,字節(jié)跳動(dòng)旗下的Seed團(tuán)隊(duì)攜手香港大學(xué)及復(fù)旦大學(xué),聯(lián)合推出了一項(xiàng)名為POLARIS的創(chuàng)新強(qiáng)化學(xué)習(xí)訓(xùn)練方案。該方案通過(guò)獨(dú)特的Scaling RL策略,成功將小型模型的數(shù)學(xué)推理能力提升至與大型模型相當(dāng)?shù)乃剑瑸锳I小模型的優(yōu)化開(kāi)辟了一條嶄新道路。
實(shí)驗(yàn)數(shù)據(jù)表明,利用POLARIS訓(xùn)練的Qwen3-4B開(kāi)源模型,在AIME25和AIME24數(shù)學(xué)測(cè)試中分別斬獲了79.4%和81.2%的準(zhǔn)確率,其表現(xiàn)甚至超越了部分規(guī)模更大的非開(kāi)源模型。尤為POLARIS-4B模型的輕量化設(shè)計(jì),使其能夠輕松適配消費(fèi)級(jí)顯卡,極大地降低了應(yīng)用門(mén)檻。
POLARIS的核心創(chuàng)新聚焦于其訓(xùn)練策略。研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)為待訓(xùn)練模型量身定制訓(xùn)練數(shù)據(jù)和超參數(shù)配置,可以顯著提升模型的數(shù)學(xué)推理能力。在實(shí)際操作中,團(tuán)隊(duì)精心調(diào)整了訓(xùn)練數(shù)據(jù)的難度分布,構(gòu)建了一個(gè)略微偏向難題的數(shù)據(jù)集,避免了樣本難度的過(guò)度集中。同時(shí),引入了數(shù)據(jù)動(dòng)態(tài)更新機(jī)制,根據(jù)模型在訓(xùn)練過(guò)程中的實(shí)時(shí)表現(xiàn)剔除過(guò)于簡(jiǎn)單的樣本,確保訓(xùn)練的高效性。
在采樣控制層面,POLARIS通過(guò)精細(xì)調(diào)節(jié)采樣溫度,實(shí)現(xiàn)了模型性能與生成路徑多樣性的平衡。研究發(fā)現(xiàn),采樣溫度對(duì)模型性能和路徑多樣性具有重要影響,過(guò)高或過(guò)低的溫度均不利于模型的訓(xùn)練。因此,團(tuán)隊(duì)提出了控制探索區(qū)的溫度初始化策略,并在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整采樣溫度,以保持生成內(nèi)容的多樣性。
針對(duì)長(zhǎng)上下文訓(xùn)練的難題,POLARIS引入了長(zhǎng)度外推技術(shù),通過(guò)調(diào)整位置編碼RoPE,使模型能夠處理超出訓(xùn)練長(zhǎng)度的更長(zhǎng)序列。這一創(chuàng)新策略有效彌補(bǔ)了長(zhǎng)文本訓(xùn)練中的不足,提升了模型在長(zhǎng)文本生成任務(wù)上的表現(xiàn)。
POLARIS還采用了分階段RL訓(xùn)練方法。在訓(xùn)練初期,使用較短的上下文窗口進(jìn)行訓(xùn)練,待模型表現(xiàn)趨于穩(wěn)定后,再逐漸增加上下文窗口的長(zhǎng)度。這一策略有助于模型逐步適應(yīng)更復(fù)雜的推理任務(wù),提高了訓(xùn)練的穩(wěn)定性和效果。
目前,POLARIS的詳細(xì)訓(xùn)練方法、訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼及實(shí)驗(yàn)?zāi)P鸵讶骈_(kāi)源。研究團(tuán)隊(duì)在多個(gè)主流推理評(píng)測(cè)集上對(duì)POLARIS的有效性進(jìn)行了驗(yàn)證,結(jié)果顯示,在應(yīng)用POLARIS訓(xùn)練方法后,不同規(guī)模和家族的模型效果均得到了顯著提升。
POLARIS的GitHub主頁(yè)為:https://github.com/ChenxinAn-fdu/POLARIS
同時(shí),POLARIS也在Hugging Face平臺(tái)上設(shè)有主頁(yè):https://huggingface.co/POLARIS-Project