在人工智能技術(shù)飛速發(fā)展的當(dāng)下,大語(yǔ)言模型在數(shù)學(xué)解題、代碼生成等需要精準(zhǔn)答案的領(lǐng)域展現(xiàn)出驚人能力。然而,一個(gè)看似矛盾的現(xiàn)象卻困擾著研究人員:當(dāng)采用強(qiáng)化學(xué)習(xí)方法訓(xùn)練模型時(shí),雖然單次回答的準(zhǔn)確率顯著提升,但允許模型多次嘗試回答同一問(wèn)題時(shí),整體成功率卻出現(xiàn)明顯下滑。這種"越訓(xùn)練越不會(huì)重答"的悖論,猶如一位學(xué)生首次答題正確率提高,卻在重考時(shí)表現(xiàn)更差,引發(fā)了學(xué)界的廣泛關(guān)注。
經(jīng)過(guò)深入探究,由INFLY TECH聯(lián)合復(fù)旦大學(xué)、格里菲斯大學(xué)組成的研究團(tuán)隊(duì)發(fā)現(xiàn),問(wèn)題根源在于傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練中使用的"反向KL散度"方法。這種數(shù)學(xué)工具本應(yīng)用于控制模型更新幅度,防止新策略偏離原始模型過(guò)多,卻意外導(dǎo)致了"模式尋求"效應(yīng)——模型過(guò)度聚焦于少數(shù)高概率答案,如同學(xué)生只鉆研特定題型而忽視其他知識(shí),最終造成解答方式單一化。
實(shí)驗(yàn)數(shù)據(jù)顯示,采用傳統(tǒng)方法訓(xùn)練的模型在完成強(qiáng)化學(xué)習(xí)后,對(duì)原本能正確解答的問(wèn)題,成功率驟降至85%左右,出現(xiàn)典型的"災(zāi)難性遺忘"現(xiàn)象。這解釋了為何模型在多次嘗試時(shí)表現(xiàn)更差:首次回答可能恰好命中集中訓(xùn)練的少數(shù)答案,但重試時(shí)因缺乏多樣性而頻繁出錯(cuò)。
針對(duì)這一難題,研究團(tuán)隊(duì)提出了創(chuàng)新性解決方案——多樣性保持混合強(qiáng)化學(xué)習(xí)框架(DPH-RL)。該框架的核心突破在于改用"正向KL散度"和"JS散度"等具有"質(zhì)量覆蓋"特性的散度方法。與傳統(tǒng)方法強(qiáng)制模型聚焦不同,新技術(shù)如同建立"知識(shí)復(fù)習(xí)機(jī)制",強(qiáng)制模型持續(xù)鞏固原有能力,防止因過(guò)度優(yōu)化而喪失解答多樣性。
在具體實(shí)現(xiàn)上,DPH-RL框架采用獨(dú)特的兩階段訓(xùn)練模式。預(yù)采樣階段,系統(tǒng)將訓(xùn)練數(shù)據(jù)智能劃分為"完美數(shù)據(jù)集"和"探索數(shù)據(jù)集":前者包含模型已能穩(wěn)定解答的問(wèn)題,每個(gè)樣本保存正確答案及概率值;后者則聚焦待改進(jìn)的難題,作為強(qiáng)化學(xué)習(xí)的重點(diǎn)訓(xùn)練對(duì)象。在線訓(xùn)練階段,系統(tǒng)對(duì)探索數(shù)據(jù)集樣本給予最大自由度,允許模型突破常規(guī)尋找創(chuàng)新解法;對(duì)完美數(shù)據(jù)集樣本則施加散度約束,確保不遺忘已有知識(shí)。
大規(guī)模實(shí)驗(yàn)驗(yàn)證了新框架的顯著優(yōu)勢(shì)。在數(shù)學(xué)推理和SQL查詢生成任務(wù)中,采用7B至32B參數(shù)規(guī)模的不同模型測(cè)試顯示,DPH-RL不僅解決了多樣性崩塌問(wèn)題,更在單次準(zhǔn)確率和多次嘗試成功率兩個(gè)關(guān)鍵指標(biāo)上實(shí)現(xiàn)同步提升。以Llama-3.1-8B模型處理SQL任務(wù)為例,傳統(tǒng)GRPO方法的Pass@8得分下降2.6個(gè)百分點(diǎn),而DPH-JS方法則提升1.7個(gè)百分點(diǎn)。在跨領(lǐng)域泛化能力測(cè)試中,傳統(tǒng)方法性能急劇下滑,新框架卻能保持穩(wěn)定表現(xiàn)。
數(shù)學(xué)推理任務(wù)的測(cè)試結(jié)果同樣具有說(shuō)服力。在AIME24數(shù)學(xué)競(jìng)賽題目上,傳統(tǒng)GRPO方法的Pass@64得分從基礎(chǔ)模型的40.0%降至33.3%,而DPH-JS方法不僅維持原有水平,在其他數(shù)學(xué)數(shù)據(jù)集上還實(shí)現(xiàn)穩(wěn)步提升。研究還發(fā)現(xiàn),不同模型架構(gòu)對(duì)強(qiáng)化學(xué)習(xí)的響應(yīng)存在顯著差異:Llama系列模型提升有限且Pass@k得分下降,而Qwen系列模型能同時(shí)提升準(zhǔn)確率和多樣性指標(biāo)約20%,這為模型訓(xùn)練策略選擇提供了重要參考。
從技術(shù)實(shí)現(xiàn)角度看,DPH-RL框架具有更高的計(jì)算效率。傳統(tǒng)散度計(jì)算需維持在線參考模型,增加計(jì)算開(kāi)銷;新框架采用生成函數(shù)形式計(jì)算f-散度,僅需從初始策略采樣,無(wú)需在線模型,大幅提升了訓(xùn)練效率。對(duì)不同f-散度的系統(tǒng)比較顯示,α-散度族在正向KL和反向KL之間提供平衡點(diǎn),隨著α值增加,實(shí)驗(yàn)中表現(xiàn)出更高的Pass@k得分,為研究者提供了更多方法選擇。
這項(xiàng)研究不僅帶來(lái)技術(shù)創(chuàng)新,更重塑了對(duì)散度項(xiàng)作用的理解。傳統(tǒng)觀點(diǎn)將散度項(xiàng)視為被動(dòng)約束工具,而DPH-RL將其重新定位為主動(dòng)的多樣性保持機(jī)制。理論證明顯示,該框架具有增強(qiáng)的單調(diào)改進(jìn)保證,在特定條件下,每次策略更新的改進(jìn)下界強(qiáng)于傳統(tǒng)TRPO分析結(jié)果,為方法的可靠性提供了數(shù)學(xué)支撐。
在實(shí)際應(yīng)用層面,DPH-RL框架為構(gòu)建通用推理模型開(kāi)辟了新路徑。當(dāng)前大模型應(yīng)用日益廣泛,保持多樣性和泛化能力至關(guān)重要。新框架的成功表明,通過(guò)精心設(shè)計(jì)的訓(xùn)練方法,既能提升模型性能,又能避免能力退化。這項(xiàng)研究也為強(qiáng)化學(xué)習(xí)在大模型訓(xùn)練中的應(yīng)用提供了重要啟示:直接移植經(jīng)典算法可能引發(fā)意外問(wèn)題,需充分考慮大模型的特殊性質(zhì)。
研究團(tuán)隊(duì)構(gòu)建的驗(yàn)證實(shí)驗(yàn)頗具巧思。他們創(chuàng)建能輸出五種解題風(fēng)格的基礎(chǔ)模型,分別用傳統(tǒng)方法和新方法訓(xùn)練。結(jié)果顯示,傳統(tǒng)方法訓(xùn)練的模型幾乎僅輸出單一風(fēng)格,而采用正向KL散度訓(xùn)練的模型在60%情況下能生成三種以上不同風(fēng)格解答。保持率和探索率分析進(jìn)一步揭示,傳統(tǒng)方法在正確樣本和錯(cuò)誤樣本上的保持率均下降,導(dǎo)致災(zāi)難性遺忘;而KL散度約束方法通過(guò)提高保持率維持了更高得分。