日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

清華團(tuán)隊(duì)突破:1.5B模型用極簡(jiǎn)RL配方實(shí)現(xiàn)SOTA,算力減半性能更優(yōu)

   時(shí)間:2025-11-13 16:18:41 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

當(dāng)強(qiáng)化學(xué)習(xí)(RL)在小規(guī)模語言模型訓(xùn)練中掀起技術(shù)競(jìng)賽時(shí),一種反其道而行之的極簡(jiǎn)方案悄然出現(xiàn)。清華團(tuán)隊(duì)近日公布的JustRL框架,通過完全摒棄課程學(xué)習(xí)、動(dòng)態(tài)調(diào)參等復(fù)雜技術(shù),僅用單階段訓(xùn)練和固定超參數(shù),便在1.5B參數(shù)模型上實(shí)現(xiàn)了數(shù)學(xué)推理能力的頂尖水平。這項(xiàng)研究不僅刷新了9項(xiàng)數(shù)學(xué)基準(zhǔn)測(cè)試的記錄,更以節(jié)省50%算力的優(yōu)勢(shì),引發(fā)對(duì)強(qiáng)化學(xué)習(xí)技術(shù)復(fù)雜度的重新思考。

在DeepSeek-R1開源引發(fā)的技術(shù)浪潮中,如何用RL訓(xùn)練1.5B級(jí)推理模型成為焦點(diǎn)。過去半年間,業(yè)界涌現(xiàn)出多階段訓(xùn)練、動(dòng)態(tài)采樣、KL重置等數(shù)十種優(yōu)化技術(shù),訓(xùn)練流程日益復(fù)雜。某代表性工作通過9個(gè)訓(xùn)練階段和512次rollout探索,雖取得53.08%的平均準(zhǔn)確率,卻消耗了雙倍于JustRL的計(jì)算資源。這種技術(shù)堆砌現(xiàn)象催生關(guān)鍵疑問:當(dāng)不同研究組合使用不同技術(shù)子集時(shí),如何判斷哪些改進(jìn)真正有效?

JustRL的突破始于一個(gè)樸素假設(shè):如果充分?jǐn)U展基礎(chǔ)訓(xùn)練規(guī)模,簡(jiǎn)單方法能達(dá)到何種高度?研究團(tuán)隊(duì)采用標(biāo)準(zhǔn)GRPO算法,構(gòu)建了"三無"訓(xùn)練體系:無階段劃分、無超參調(diào)整、無數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)選用兩個(gè)基座模型進(jìn)行驗(yàn)證:起點(diǎn)較弱的DeepSeek-1.5B(AIME 2024準(zhǔn)確率29%)和較強(qiáng)的Nemotron-1.5B(準(zhǔn)確率61%)。在完全相同的超參數(shù)設(shè)置下,兩個(gè)模型在9項(xiàng)數(shù)學(xué)基準(zhǔn)上均達(dá)到當(dāng)前最優(yōu)水平,其中Nemotron基座模型以64.32%的準(zhǔn)確率超越采用課程學(xué)習(xí)的QuestA方案。

訓(xùn)練效率的對(duì)比更具沖擊力。從弱基座起步的JustRL-DeepSeek模型,在32張A800 GPU上訓(xùn)練15天后,以1.4E+11 token的預(yù)算取得54.87%的平均準(zhǔn)確率,較ProRL-V2的9階段訓(xùn)練方案節(jié)省一半算力。更引人注目的是訓(xùn)練過程的穩(wěn)定性:在4000步訓(xùn)練中,策略熵始終維持在1.2-1.4的健康區(qū)間,平均獎(jiǎng)勵(lì)呈單調(diào)上升趨勢(shì),響應(yīng)長度自然壓縮至4000-5000 tokens,全程未出現(xiàn)熵崩潰或探索失效等典型問題。

兩個(gè)意外實(shí)驗(yàn)進(jìn)一步顛覆傳統(tǒng)認(rèn)知。當(dāng)研究團(tuán)隊(duì)嘗試加入顯式長度懲罰時(shí),模型準(zhǔn)確率從55%驟降至50%,原因在于懲罰項(xiàng)導(dǎo)致熵值過早壓縮,阻礙了有效解題策略的探索。而改用寬松驗(yàn)證器的實(shí)驗(yàn),則使性能下滑至45%,分析顯示細(xì)粒度學(xué)習(xí)信號(hào)的缺失和格式約束的放松,反而削弱了模型的推理魯棒性。這些"反向優(yōu)化"案例表明,某些看似合理的改進(jìn)在穩(wěn)定基線上可能適得其反。

該成果的技術(shù)博客和開源模型已在網(wǎng)絡(luò)公開,其核心啟示在于:在充分?jǐn)U展訓(xùn)練規(guī)模的前提下,簡(jiǎn)單方法可能比預(yù)期更強(qiáng)大。研究團(tuán)隊(duì)特別強(qiáng)調(diào),這并非否定復(fù)雜技術(shù)的價(jià)值,而是主張先驗(yàn)證基礎(chǔ)方案的極限。當(dāng)行業(yè)習(xí)慣于做技術(shù)加法時(shí),JustRL的實(shí)踐證明,有時(shí)減去冗余設(shè)計(jì),反而能發(fā)現(xiàn)更本質(zhì)的解決方案。這種"減法哲學(xué)"或許能為RL訓(xùn)練提供新的評(píng)估維度——在追求創(chuàng)新之前,先確認(rèn)簡(jiǎn)單方法是否已足夠。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
国产精品理论片| 中文字幕一区二区三区四区不卡| 色婷婷久久久亚洲一区二区三区 | 色妹子一区二区| 免费一级欧美片在线观看| 男女性色大片免费观看一区二区| 三级不卡在线观看| 综合电影一区二区三区 | 欧美妇女性影城| 久久精品国产久精国产爱| 99精品国产热久久91蜜凸| 国产自产高清不卡| 亚洲同性同志一二三专区| 精品一区二区三区视频在线观看| 久久精品这里都是精品| 在线精品视频小说1| 亚洲一区二区三区四区在线观看 | 一区二区三区国产豹纹内裤在线| 欧美日韩不卡视频| 韩国三级中文字幕hd久久精品| 国产精品久久久久久久岛一牛影视| 成人免费毛片a| 日本亚洲天堂网| 国产精品久久久久一区二区三区| 在线欧美日韩国产| 成人午夜在线播放| 日韩av不卡在线观看| 亚洲柠檬福利资源导航| 久久久精品综合| 欧美日韩一区高清| 成人18精品视频| 国产精一品亚洲二区在线视频| 午夜视频在线观看一区| 亚洲国产精品成人综合 | 国产精品久久久久永久免费观看 | 中文字幕一区二区三区精华液| 欧美美女一区二区| 99这里只有精品| 高清成人免费视频| 久久av资源站| 日本免费新一区视频| 亚洲欧洲一区二区在线播放| 国产视频一区二区在线观看| 26uuu亚洲婷婷狠狠天堂| 欧美挠脚心视频网站| 欧美视频精品在线观看| 91亚洲精品久久久蜜桃| 国产乱理伦片在线观看夜一区| 日韩电影网1区2区| 亚洲动漫第一页| 悠悠色在线精品| 国产精品二三区| 久久久激情视频| 久久精品一区二区三区不卡牛牛| 日韩限制级电影在线观看| 欧美日韩精品是欧美日韩精品| 色综合天天综合狠狠| 91麻豆6部合集magnet| 成人综合婷婷国产精品久久蜜臀| 精品一区在线看| 国产一区二区在线看| 国产综合色精品一区二区三区| 激情欧美日韩一区二区| 懂色av一区二区三区蜜臀| 成人app软件下载大全免费| 99视频热这里只有精品免费| 色呦呦日韩精品| 欧美午夜不卡在线观看免费| 欧美精品一级二级| 欧美va亚洲va在线观看蝴蝶网| 日韩美女一区二区三区| 久久久精品中文字幕麻豆发布| 中文字幕成人av| 亚洲精品成人在线| 日韩精品欧美精品| 国产在线播精品第三| 风间由美性色一区二区三区| 不卡的电影网站| 在线精品观看国产| 日韩精品中文字幕在线一区| 国产亚洲一区二区三区四区 | 日本vs亚洲vs韩国一区三区| 日韩精品午夜视频| 国产一区二区91| 91麻豆精品一区二区三区| 在线不卡的av| 国产亚洲精品bt天堂精选| 亚洲欧美综合在线精品| 日本在线不卡视频一二三区| 国产在线播放一区二区三区| 91网站黄www| 日韩三级在线观看| 国产精品国产成人国产三级| 天天色 色综合| 成人黄动漫网站免费app| 欧美三级电影精品| 国产精品美女视频| 日韩高清不卡一区二区| 成人亚洲一区二区一| 在线播放欧美女士性生活| 国产精品久久午夜夜伦鲁鲁| 伦理电影国产精品| 欧美日韩一区二区电影| 中文字幕在线一区二区三区| 久久精品国产秦先生| www.99精品| 欧美大胆人体bbbb| 欧美日韩另类国产亚洲欧美一级| 精品成人一区二区| 日韩欧美亚洲另类制服综合在线| 中文字幕+乱码+中文字幕一区| 午夜精品久久久| 色综合久久六月婷婷中文字幕| 精品日产卡一卡二卡麻豆| 亚洲一区二区三区视频在线播放 | av在线一区二区| 欧美成人精品高清在线播放| 午夜免费欧美电影| 欧美少妇xxx| 一区二区三区在线高清| 97se亚洲国产综合自在线| 国产亚洲欧美一区在线观看| 国内精品写真在线观看| 日韩欧美高清一区| 日本aⅴ免费视频一区二区三区| 一本一道久久a久久精品| 国产精品麻豆久久久| 国产福利精品一区二区| 精品国产免费久久| 韩国成人精品a∨在线观看| 日韩免费电影网站| 精品一区二区三区不卡| 日韩欧美一级二级三级| 久久99九九99精品| 精品国产91久久久久久久妲己| 热久久免费视频| 日韩欧美国产wwwww| 国产在线精品一区二区夜色| 日韩美女视频在线| 国产剧情av麻豆香蕉精品| 国产精品久久久久三级| 91女人视频在线观看| 一区二区三区在线观看国产| 在线观看日韩av先锋影音电影院| 亚洲黄色小说网站| 欧美男女性生活在线直播观看| 午夜国产精品一区| 日韩精品一区二区三区蜜臀| 狠狠色丁香久久婷婷综合_中| 精品国产一区二区亚洲人成毛片 | 高清国产一区二区三区| 国产精品污www在线观看| 97成人超碰视| 午夜精品一区在线观看| 2021中文字幕一区亚洲| 色综合网站在线| 麻豆国产精品视频| 亚洲欧美在线观看| 欧美人与z0zoxxxx视频| 久久se精品一区二区| eeuss鲁片一区二区三区在线看| 国产精品久久久久久亚洲伦| 91香蕉视频污| 奇米一区二区三区av| 久久久久久久久久美女| 99久久99久久精品国产片果冻 | 亚洲欧美一区二区不卡| 欧美日韩中文国产| 国产精品一卡二卡在线观看| 《视频一区视频二区| 欧美喷水一区二区| 99久久久精品| 久久99深爱久久99精品| 亚洲精品成人天堂一二三| 久久九九久精品国产免费直播| 在线观看www91| 成人激情小说乱人伦| 免费成人av在线| 亚洲最大色网站| 欧美高清在线一区二区| 日韩美女主播在线视频一区二区三区 | 精品国产不卡一区二区三区| 97精品超碰一区二区三区| 久久国产视频网| 亚洲国产日韩综合久久精品| 国产香蕉久久精品综合网| 日韩一区二区三区视频| 一本大道久久a久久综合| 国产成人福利片| 久久精品国产亚洲aⅴ| 五月天一区二区三区| 最新不卡av在线| 国产欧美视频一区二区| 欧美大片顶级少妇| 欧美一区二区三区系列电影| 欧美视频精品在线观看| 在线观看成人小视频| 91色porny蝌蚪| 91在线看国产| 成人精品在线视频观看|