日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

INFLY TECH團(tuán)隊(duì)提出DPH-RL框架:讓AI訓(xùn)練告別“專攻偏科”困境

   時(shí)間:2025-09-13 18:42:53 來(lái)源:至頂AI實(shí)驗(yàn)室編輯:快訊團(tuán)隊(duì) IP:北京 發(fā)表評(píng)論無(wú)障礙通道
 

在人工智能技術(shù)飛速發(fā)展的當(dāng)下,大語(yǔ)言模型在數(shù)學(xué)解題、代碼生成等需要精準(zhǔn)答案的領(lǐng)域展現(xiàn)出驚人能力。然而,一個(gè)看似矛盾的現(xiàn)象卻困擾著研究人員:當(dāng)采用強(qiáng)化學(xué)習(xí)方法訓(xùn)練模型時(shí),雖然單次回答的準(zhǔn)確率顯著提升,但允許模型多次嘗試回答同一問(wèn)題時(shí),整體成功率卻出現(xiàn)明顯下滑。這種"越訓(xùn)練越不會(huì)重答"的悖論,猶如一位學(xué)生首次答題正確率提高,卻在重考時(shí)表現(xiàn)更差,引發(fā)了學(xué)界的廣泛關(guān)注。

經(jīng)過(guò)深入探究,由INFLY TECH聯(lián)合復(fù)旦大學(xué)、格里菲斯大學(xué)組成的研究團(tuán)隊(duì)發(fā)現(xiàn),問(wèn)題根源在于傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練中使用的"反向KL散度"方法。這種數(shù)學(xué)工具本應(yīng)用于控制模型更新幅度,防止新策略偏離原始模型過(guò)多,卻意外導(dǎo)致了"模式尋求"效應(yīng)——模型過(guò)度聚焦于少數(shù)高概率答案,如同學(xué)生只鉆研特定題型而忽視其他知識(shí),最終造成解答方式單一化。

實(shí)驗(yàn)數(shù)據(jù)顯示,采用傳統(tǒng)方法訓(xùn)練的模型在完成強(qiáng)化學(xué)習(xí)后,對(duì)原本能正確解答的問(wèn)題,成功率驟降至85%左右,出現(xiàn)典型的"災(zāi)難性遺忘"現(xiàn)象。這解釋了為何模型在多次嘗試時(shí)表現(xiàn)更差:首次回答可能恰好命中集中訓(xùn)練的少數(shù)答案,但重試時(shí)因缺乏多樣性而頻繁出錯(cuò)。

針對(duì)這一難題,研究團(tuán)隊(duì)提出了創(chuàng)新性解決方案——多樣性保持混合強(qiáng)化學(xué)習(xí)框架(DPH-RL)。該框架的核心突破在于改用"正向KL散度"和"JS散度"等具有"質(zhì)量覆蓋"特性的散度方法。與傳統(tǒng)方法強(qiáng)制模型聚焦不同,新技術(shù)如同建立"知識(shí)復(fù)習(xí)機(jī)制",強(qiáng)制模型持續(xù)鞏固原有能力,防止因過(guò)度優(yōu)化而喪失解答多樣性。

在具體實(shí)現(xiàn)上,DPH-RL框架采用獨(dú)特的兩階段訓(xùn)練模式。預(yù)采樣階段,系統(tǒng)將訓(xùn)練數(shù)據(jù)智能劃分為"完美數(shù)據(jù)集"和"探索數(shù)據(jù)集":前者包含模型已能穩(wěn)定解答的問(wèn)題,每個(gè)樣本保存正確答案及概率值;后者則聚焦待改進(jìn)的難題,作為強(qiáng)化學(xué)習(xí)的重點(diǎn)訓(xùn)練對(duì)象。在線訓(xùn)練階段,系統(tǒng)對(duì)探索數(shù)據(jù)集樣本給予最大自由度,允許模型突破常規(guī)尋找創(chuàng)新解法;對(duì)完美數(shù)據(jù)集樣本則施加散度約束,確保不遺忘已有知識(shí)。

大規(guī)模實(shí)驗(yàn)驗(yàn)證了新框架的顯著優(yōu)勢(shì)。在數(shù)學(xué)推理和SQL查詢生成任務(wù)中,采用7B至32B參數(shù)規(guī)模的不同模型測(cè)試顯示,DPH-RL不僅解決了多樣性崩塌問(wèn)題,更在單次準(zhǔn)確率和多次嘗試成功率兩個(gè)關(guān)鍵指標(biāo)上實(shí)現(xiàn)同步提升。以Llama-3.1-8B模型處理SQL任務(wù)為例,傳統(tǒng)GRPO方法的Pass@8得分下降2.6個(gè)百分點(diǎn),而DPH-JS方法則提升1.7個(gè)百分點(diǎn)。在跨領(lǐng)域泛化能力測(cè)試中,傳統(tǒng)方法性能急劇下滑,新框架卻能保持穩(wěn)定表現(xiàn)。

數(shù)學(xué)推理任務(wù)的測(cè)試結(jié)果同樣具有說(shuō)服力。在AIME24數(shù)學(xué)競(jìng)賽題目上,傳統(tǒng)GRPO方法的Pass@64得分從基礎(chǔ)模型的40.0%降至33.3%,而DPH-JS方法不僅維持原有水平,在其他數(shù)學(xué)數(shù)據(jù)集上還實(shí)現(xiàn)穩(wěn)步提升。研究還發(fā)現(xiàn),不同模型架構(gòu)對(duì)強(qiáng)化學(xué)習(xí)的響應(yīng)存在顯著差異:Llama系列模型提升有限且Pass@k得分下降,而Qwen系列模型能同時(shí)提升準(zhǔn)確率和多樣性指標(biāo)約20%,這為模型訓(xùn)練策略選擇提供了重要參考。

從技術(shù)實(shí)現(xiàn)角度看,DPH-RL框架具有更高的計(jì)算效率。傳統(tǒng)散度計(jì)算需維持在線參考模型,增加計(jì)算開(kāi)銷;新框架采用生成函數(shù)形式計(jì)算f-散度,僅需從初始策略采樣,無(wú)需在線模型,大幅提升了訓(xùn)練效率。對(duì)不同f-散度的系統(tǒng)比較顯示,α-散度族在正向KL和反向KL之間提供平衡點(diǎn),隨著α值增加,實(shí)驗(yàn)中表現(xiàn)出更高的Pass@k得分,為研究者提供了更多方法選擇。

這項(xiàng)研究不僅帶來(lái)技術(shù)創(chuàng)新,更重塑了對(duì)散度項(xiàng)作用的理解。傳統(tǒng)觀點(diǎn)將散度項(xiàng)視為被動(dòng)約束工具,而DPH-RL將其重新定位為主動(dòng)的多樣性保持機(jī)制。理論證明顯示,該框架具有增強(qiáng)的單調(diào)改進(jìn)保證,在特定條件下,每次策略更新的改進(jìn)下界強(qiáng)于傳統(tǒng)TRPO分析結(jié)果,為方法的可靠性提供了數(shù)學(xué)支撐。

在實(shí)際應(yīng)用層面,DPH-RL框架為構(gòu)建通用推理模型開(kāi)辟了新路徑。當(dāng)前大模型應(yīng)用日益廣泛,保持多樣性和泛化能力至關(guān)重要。新框架的成功表明,通過(guò)精心設(shè)計(jì)的訓(xùn)練方法,既能提升模型性能,又能避免能力退化。這項(xiàng)研究也為強(qiáng)化學(xué)習(xí)在大模型訓(xùn)練中的應(yīng)用提供了重要啟示:直接移植經(jīng)典算法可能引發(fā)意外問(wèn)題,需充分考慮大模型的特殊性質(zhì)。

研究團(tuán)隊(duì)構(gòu)建的驗(yàn)證實(shí)驗(yàn)頗具巧思。他們創(chuàng)建能輸出五種解題風(fēng)格的基礎(chǔ)模型,分別用傳統(tǒng)方法和新方法訓(xùn)練。結(jié)果顯示,傳統(tǒng)方法訓(xùn)練的模型幾乎僅輸出單一風(fēng)格,而采用正向KL散度訓(xùn)練的模型在60%情況下能生成三種以上不同風(fēng)格解答。保持率和探索率分析進(jìn)一步揭示,傳統(tǒng)方法在正確樣本和錯(cuò)誤樣本上的保持率均下降,導(dǎo)致災(zāi)難性遺忘;而KL散度約束方法通過(guò)提高保持率維持了更高得分。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
亚洲高清资源| 久久久国际精品| 亚洲精品一区二区三区av| 亚洲女人小视频在线观看| 美女图片一区二区| 精品999成人| 久久国产精品99精品国产| 国产日产精品一区二区三区四区的观看方式 | 欧美精品一线| 国语自产精品视频在线看| 欧美怡红院视频| 激情一区二区三区| 欧美国产精品专区| 亚洲一区精品在线| 激情自拍一区| 免费在线成人| 在线亚洲一区| 国产一区二区三区av电影| 久久精品一二三| 日韩亚洲欧美成人| 国产伦精品一区二区| 麻豆精品传媒视频| 99综合电影在线视频| 国产精品久久7| 欧美日韩亚洲国产精品| 亚洲欧美中文另类| 国产欧美婷婷中文| 久久综合福利| 国产亚洲欧美一区| 正在播放亚洲| 欧美一区二区三区精品| 国产在线不卡视频| 欧美激情2020午夜免费观看| 亚洲午夜视频在线观看| 国内精品国产成人| 欧美午夜一区| 久久久一本精品99久久精品66| 激情成人在线视频| 国产欧美激情| 久久精品国产精品亚洲精品| 在线观看视频亚洲| 欧美视频手机在线| 欧美福利电影网| 亚洲视频一二三| 伊伊综合在线| 国产精品区一区二区三| 欧美伊人久久| 亚洲精品黄色| 好吊成人免视频| 国产精品国内视频| 欧美日本三区| 欧美成人精品高清在线播放| 欧美在线网址| 先锋影音网一区二区| 一区二区三区视频免费在线观看| 亚洲国产午夜| 亚洲人成77777在线观看网| 伊人成人在线| 在线视频成人| 亚洲国产精品免费| 91久久久久久久久久久久久| 在线看片成人| 亚洲国产精品热久久| 亚洲欧洲日本国产| 亚洲另类在线视频| 一区二区三区免费观看| 亚洲一区不卡| 欧美一区午夜精品| 久久这里有精品15一区二区三区| 国产精品专区第二| 欧美激情一区二区三区在线视频观看| 久久久亚洲一区| 欧美成人一区二区| 午夜在线成人av| 久久精品最新地址| 欧美精品日韩三级| 欧美激情综合五月色丁香小说| 免费在线观看一区二区| 欧美激情一区在线观看| 欧美三级午夜理伦三级中文幕 | 欧美影院午夜播放| 99精品99| 亚洲福利av| 亚洲黄网站在线观看| 欧美a级一区| 欧美新色视频| 国内精品美女av在线播放| 激情综合久久| 久久久久九九九九| 欧美日韩在线视频观看| 欧美日韩一区三区| 国产精品视频| 欧美专区18| 久久精品国产第一区二区三区最新章节| 亚洲欧洲一区二区在线观看| 亚洲精品老司机| 午夜精品www| 久久综合久久久| 欧美日韩在线亚洲一区蜜芽| 国产午夜久久| 曰韩精品一区二区| 亚洲在线成人精品| 欧美91视频| 欧美日韩成人在线视频| 国产精品一区二区久久国产| 精品成人久久| 欧美激情精品久久久久久大尺度| 国产精品裸体一区二区三区| 亚洲国产精品一区二区第四页av| 一区二区三区精品视频在线观看| 快射av在线播放一区| 国产女精品视频网站免费| 99天天综合性| 欧美成人有码| 在线观看亚洲视频| 久久精品五月| 国产一区二区三区久久| 亚洲性线免费观看视频成熟| 欧美国产视频日韩| 樱花yy私人影院亚洲| 性欧美大战久久久久久久久| 国产精品白丝av嫩草影院| 日韩视频在线免费观看| 欧美成人在线免费视频| 一区二区三区在线视频观看| 午夜久久福利| 欧美日韩免费网站| 亚洲麻豆av| 欧美激情a∨在线视频播放| 一区在线视频| 理论片一区二区在线| 国产一区二区精品久久91| 亚洲男人的天堂在线| 欧美色精品在线视频| 99精品国产99久久久久久福利| 欧美黄在线观看| 日韩视频在线观看国产| 欧美日韩中字| 亚洲欧美日本精品| 国产欧美日韩伦理| 欧美一区二区成人| 国产无一区二区| 久久久久久综合| 亚洲二区在线观看| 欧美激情综合色综合啪啪| 亚洲免费观看在线视频| 欧美日韩免费看| 日韩视频免费看| 欧美日韩调教| aⅴ色国产欧美| 国产伦精品一区二区三区四区免费| 欧美一级免费视频| 黄色一区二区在线| 欧美国产综合视频| 日韩一级大片| 国产精品网站在线| 欧美在线一级va免费观看| **网站欧美大片在线观看| 欧美人与性动交cc0o| 亚洲欧美激情四射在线日 | 亚洲福利视频免费观看| 欧美国产日韩免费| 亚洲三级视频| 国产精品v日韩精品| 久久疯狂做爰流白浆xx| 亚洲国产一区二区在线| 国产精品a久久久久久| 久久精品国产欧美亚洲人人爽| 亚洲日韩第九十九页| 国产精品午夜久久| 久久免费一区| 一区二区高清| 黄色成人av在线| 欧美日韩国产限制| 性欧美长视频| 99视频精品免费观看| 国产一区二区三区黄视频| 欧美啪啪一区| 久久久久久9| 亚洲欧美国产视频| 亚洲国产一区二区a毛片| 国产精品久久久久77777| 免费在线看成人av| 欧美亚洲视频在线看网址| 亚洲精品国偷自产在线99热| 国产欧美一区二区三区久久人妖| 欧美成在线视频| 久久黄色小说| 亚洲免费综合| 中文一区二区在线观看| 亚洲黄色性网站| 精品动漫av| 韩日欧美一区二区| 国产精品亚洲精品| 欧美高清视频www夜色资源网| 欧美在线视频导航| 午夜精彩视频在线观看不卡 | 亚洲国产精品一区二区尤物区| 国产精品狠色婷| 欧美视频一区二区三区|