當(dāng)強(qiáng)化學(xué)習(xí)(RL)在小規(guī)模語言模型訓(xùn)練中掀起技術(shù)競(jìng)賽時(shí),一種反其道而行之的極簡(jiǎn)方案悄然出現(xiàn)。清華團(tuán)隊(duì)近日公布的JustRL框架,通過完全摒棄課程學(xué)習(xí)、動(dòng)態(tài)調(diào)參等復(fù)雜技術(shù),僅用單階段訓(xùn)練和固定超參數(shù),便在1.5B參數(shù)模型上實(shí)現(xiàn)了數(shù)學(xué)推理能力的頂尖水平。這項(xiàng)研究不僅刷新了9項(xiàng)數(shù)學(xué)基準(zhǔn)測(cè)試的記錄,更以節(jié)省50%算力的優(yōu)勢(shì),引發(fā)對(duì)強(qiáng)化學(xué)習(xí)技術(shù)復(fù)雜度的重新思考。
在DeepSeek-R1開源引發(fā)的技術(shù)浪潮中,如何用RL訓(xùn)練1.5B級(jí)推理模型成為焦點(diǎn)。過去半年間,業(yè)界涌現(xiàn)出多階段訓(xùn)練、動(dòng)態(tài)采樣、KL重置等數(shù)十種優(yōu)化技術(shù),訓(xùn)練流程日益復(fù)雜。某代表性工作通過9個(gè)訓(xùn)練階段和512次rollout探索,雖取得53.08%的平均準(zhǔn)確率,卻消耗了雙倍于JustRL的計(jì)算資源。這種技術(shù)堆砌現(xiàn)象催生關(guān)鍵疑問:當(dāng)不同研究組合使用不同技術(shù)子集時(shí),如何判斷哪些改進(jìn)真正有效?
JustRL的突破始于一個(gè)樸素假設(shè):如果充分?jǐn)U展基礎(chǔ)訓(xùn)練規(guī)模,簡(jiǎn)單方法能達(dá)到何種高度?研究團(tuán)隊(duì)采用標(biāo)準(zhǔn)GRPO算法,構(gòu)建了"三無"訓(xùn)練體系:無階段劃分、無超參調(diào)整、無數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)選用兩個(gè)基座模型進(jìn)行驗(yàn)證:起點(diǎn)較弱的DeepSeek-1.5B(AIME 2024準(zhǔn)確率29%)和較強(qiáng)的Nemotron-1.5B(準(zhǔn)確率61%)。在完全相同的超參數(shù)設(shè)置下,兩個(gè)模型在9項(xiàng)數(shù)學(xué)基準(zhǔn)上均達(dá)到當(dāng)前最優(yōu)水平,其中Nemotron基座模型以64.32%的準(zhǔn)確率超越采用課程學(xué)習(xí)的QuestA方案。
訓(xùn)練效率的對(duì)比更具沖擊力。從弱基座起步的JustRL-DeepSeek模型,在32張A800 GPU上訓(xùn)練15天后,以1.4E+11 token的預(yù)算取得54.87%的平均準(zhǔn)確率,較ProRL-V2的9階段訓(xùn)練方案節(jié)省一半算力。更引人注目的是訓(xùn)練過程的穩(wěn)定性:在4000步訓(xùn)練中,策略熵始終維持在1.2-1.4的健康區(qū)間,平均獎(jiǎng)勵(lì)呈單調(diào)上升趨勢(shì),響應(yīng)長度自然壓縮至4000-5000 tokens,全程未出現(xiàn)熵崩潰或探索失效等典型問題。
兩個(gè)意外實(shí)驗(yàn)進(jìn)一步顛覆傳統(tǒng)認(rèn)知。當(dāng)研究團(tuán)隊(duì)嘗試加入顯式長度懲罰時(shí),模型準(zhǔn)確率從55%驟降至50%,原因在于懲罰項(xiàng)導(dǎo)致熵值過早壓縮,阻礙了有效解題策略的探索。而改用寬松驗(yàn)證器的實(shí)驗(yàn),則使性能下滑至45%,分析顯示細(xì)粒度學(xué)習(xí)信號(hào)的缺失和格式約束的放松,反而削弱了模型的推理魯棒性。這些"反向優(yōu)化"案例表明,某些看似合理的改進(jìn)在穩(wěn)定基線上可能適得其反。
該成果的技術(shù)博客和開源模型已在網(wǎng)絡(luò)公開,其核心啟示在于:在充分?jǐn)U展訓(xùn)練規(guī)模的前提下,簡(jiǎn)單方法可能比預(yù)期更強(qiáng)大。研究團(tuán)隊(duì)特別強(qiáng)調(diào),這并非否定復(fù)雜技術(shù)的價(jià)值,而是主張先驗(yàn)證基礎(chǔ)方案的極限。當(dāng)行業(yè)習(xí)慣于做技術(shù)加法時(shí),JustRL的實(shí)踐證明,有時(shí)減去冗余設(shè)計(jì),反而能發(fā)現(xiàn)更本質(zhì)的解決方案。這種"減法哲學(xué)"或許能為RL訓(xùn)練提供新的評(píng)估維度——在追求創(chuàng)新之前,先確認(rèn)簡(jiǎn)單方法是否已足夠。











