日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

小米與北大聯(lián)合發(fā)文!“天才少女”羅福莉參與,提出MoE模型新解法

   時(shí)間:2025-10-16 18:00:30 來源:快訊編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

近日,一篇由小米與北京大學(xué)聯(lián)合署名的論文在arXiv平臺發(fā)布,引發(fā)科技圈關(guān)注。論文中一個(gè)引人注目的細(xì)節(jié)是,此前被傳以千萬年薪被小米集團(tuán)創(chuàng)始人兼CEO雷軍招攬的DeepSeek“天才少女”羅福莉,出現(xiàn)在通訊作者名單里,不過論文未標(biāo)注其是否屬于小米大模型團(tuán)隊(duì)。

羅福莉出生于1995年,本科階段在北京師范大學(xué)計(jì)算機(jī)專業(yè)深造,碩士畢業(yè)于北京大學(xué)計(jì)算語言學(xué)研究所的計(jì)算語言學(xué)專業(yè)。畢業(yè)后,她加入阿里巴巴達(dá)摩院,主導(dǎo)開發(fā)了多語言預(yù)訓(xùn)練模型VECO,還推動(dòng)了AliceMind的開源工作。2022年,羅福莉入職DeepSeek,參與MoE大模型DeepSeek - V2的研發(fā)。去年年底,有消息稱小米以千萬年薪挖角羅福莉,此事一度登上熱搜,但雙方至今都未公開聲明其是否正式入職小米。

此次發(fā)表的論文聚焦于提升MoE模型強(qiáng)化學(xué)習(xí)訓(xùn)練的新方法——Rollout Routing Replay(R3)。實(shí)驗(yàn)數(shù)據(jù)顯示,R3的整體性能優(yōu)于GRPO、TIS等強(qiáng)化學(xué)習(xí)領(lǐng)域用于提升模型性能的優(yōu)化算法。引入R3的所有組合方法在訓(xùn)練全程未出現(xiàn)崩盤情況,訓(xùn)練過程中訓(xùn)練 - 推理KL散度始終維持在較低水平,且在不影響訓(xùn)練速度的前提下,使極端token比例減少了一個(gè)量級。

當(dāng)下,強(qiáng)化學(xué)習(xí)(RL)在提升大語言模型能力方面扮演著關(guān)鍵角色。通過大規(guī)模強(qiáng)化學(xué)習(xí),大模型能夠進(jìn)行更深入、廣泛的推理,從而獲得解決復(fù)雜問題所需的高級能力。然而,在MoE模型中,路由機(jī)制常常會引入不穩(wěn)定性,甚至導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練崩潰。現(xiàn)有的引入重要性采樣機(jī)制等方法,并不能有效提升訓(xùn)練穩(wěn)定性。與以往采取丟棄差異較大數(shù)據(jù)等變通方法不同,此次論文的研究人員希望通過解決路由分布問題,即R3方法,從根本上解決這一難題。

論文提出的R3方法,其工作原理是在序列生成期間,從推理引擎捕獲路由分布,并直接將其重放到訓(xùn)練引擎中。這一過程縮小了訓(xùn)練和推理之間的差距,顯著特征是不同引擎生成的邏輯向量的KL散度明顯降低,兩個(gè)階段之間概率差異顯著的token數(shù)量減少了大約一個(gè)數(shù)量級。該方法同時(shí)適用于在線策略(on - policy)和小批量(mini - batch)式離線策略強(qiáng)化學(xué)習(xí)(off - policy)場景。

論文闡述了研究團(tuán)隊(duì)的三大主要貢獻(xiàn):一是系統(tǒng)識別并分析了MoE模型中訓(xùn)練和推理之間的路由分布差異,強(qiáng)調(diào)了這些差異在訓(xùn)練不穩(wěn)定性中的作用;二是提出Rollout Routing Replay方法,重用訓(xùn)練引擎內(nèi)部的推理時(shí)間路由分布,以協(xié)調(diào)訓(xùn)練和推理之間的路由行為;三是將R3應(yīng)用于多種RL設(shè)置進(jìn)行MoE強(qiáng)化學(xué)習(xí),結(jié)果顯示R3在穩(wěn)定性和整體性能方面優(yōu)于GSPO和TIS。

R3的主要設(shè)計(jì)思路是在訓(xùn)練前向傳播過程中重用推理路由掩碼I,同時(shí)仍將softmax應(yīng)用于訓(xùn)練邏輯以保持梯度流。這一設(shè)計(jì)有兩個(gè)目的:一是對齊訓(xùn)練和推理,確保訓(xùn)練重放期間使用的專家與推理期間選擇的專家相匹配,消除專家選擇中的不匹配;二是保留梯度數(shù)據(jù)流,僅重放掩碼可使梯度流回logits而不干擾計(jì)算圖,有助于有效優(yōu)化路由器。

在效率優(yōu)化方面,R3通過路由掩碼緩存(Router Mask Caching)適配多輪對話場景,降低計(jì)算開銷。緩存的路由掩碼具有相似屬性,對于相同的前綴token,MoE路由器應(yīng)產(chǎn)生相同結(jié)果,因此來自推理引擎的路由掩碼可與前綴KVCache一起緩存。對于每個(gè)層和token前綴,相應(yīng)的路由掩碼存儲在KVCache中。當(dāng)相同前綴出現(xiàn)并命中緩存時(shí),這些掩碼可被重用,無需重新計(jì)算,使R3能與前綴緩存機(jī)制無縫集成。研究人員稱,緩存路由掩碼在Agent場景中有較大應(yīng)用空間,如軟件工程和網(wǎng)頁瀏覽等Agent任務(wù),涉及自回歸生成和工具調(diào)用之間的多輪交互,為提高效率,這些過程直接重用前幾輪的KVCache,路由掩碼緩存使R3能在強(qiáng)化學(xué)習(xí)代理任務(wù)中保持高效,無需重新預(yù)填充以生成路由掩碼。

為證明R3在縮小訓(xùn)練 - 推理差異上的有效性,研究人員使用Qwen3 - 30B - A3B模型進(jìn)行驗(yàn)證,將推理過程中獲得的路由分布緩存在SGLang上,并在Megatron框架內(nèi)重放。結(jié)果顯示,應(yīng)用R3后,訓(xùn)練和推理之間的KL散度從1.5×10?3減小到7.5×10??,接近稠密模型的6.4×10??水平,表明訓(xùn)練 - 推理差異減少。研究人員還繪制了使用R3的訓(xùn)練 - 推理差異比率的累積分布圖,對于MoE模型,應(yīng)用R3可將具有較大訓(xùn)練推理差異的token的頻率降低一個(gè)數(shù)量級。

為評估R3對強(qiáng)化學(xué)習(xí)的性能改進(jìn),研究人員從BigMath、ORZ等開源數(shù)據(jù)集篩選約10萬道可驗(yàn)證數(shù)學(xué)題,采用AIME24、AIME25、AMC23和MATH500作為基準(zhǔn)數(shù)據(jù)集進(jìn)行評估,并在單次訓(xùn)練過程中每5個(gè)全局步驟測量一次模型性能。選擇的模型是Qwen3 - 30B - A3B - Base及其微調(diào)模型Qwen3 - 30B - A3B - SFT。評估方式是每5個(gè)全局步驟記錄模型性能,最終報(bào)告最佳性能及對應(yīng)訓(xùn)練步驟,若模型后期性能驟降,同時(shí)追蹤訓(xùn)練崩盤步驟。

實(shí)驗(yàn)結(jié)果顯示,在整體性能上,R3在多步更新場景中表現(xiàn)突出,GRPO + R3平均得分68.05分,比GSPO高出1.29分;GSPO + R3進(jìn)一步提升至69.00分,比單獨(dú)GSPO高2.24分。在單步更新場景中,SFT模型上,GRPO + R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO + TIS(66.24)高5.59分;Base模型上,GRPO + R3平均得分70.73,比GRPO(61.69)高9.04分。研究人員還發(fā)現(xiàn),將R3與TIS結(jié)合使用并不能帶來明顯的性能提升,甚至可能降低性能,例如在SFT模型的單小步設(shè)置下,TIS + R3的得分比單獨(dú)使用R3低1.69分,這是因?yàn)镽3已顯著降低了訓(xùn)練和推理之間的策略差異,TIS的額外校正效果微乎其微。

在訓(xùn)練穩(wěn)定性方面,GRPO、GRPO + TIS等無R3的方法在單步更新場景中均出現(xiàn)崩盤,GRPO在60步崩盤、GRPO + TIS在105步崩盤。而引入R3后,所有組合方法均無崩盤,且訓(xùn)練過程中訓(xùn)練 - 推理KL散度等始終較低。

在優(yōu)化與生成行為方面,R3在訓(xùn)練過程中能增強(qiáng)優(yōu)化穩(wěn)定性、探索行為和生成動(dòng)態(tài)。研究人員繪制的單步 + 基礎(chǔ)模型組訓(xùn)練過程中的序列長度、梯度范數(shù)、生成熵和評估分?jǐn)?shù)顯示,R3具有更小的梯度范數(shù)、更平滑的序列增長模式和更穩(wěn)定的熵。使用R3時(shí),生成的序列長度在訓(xùn)練開始時(shí)迅速上升,表明R3能快速捕捉到正確的優(yōu)化方向,相比之下其他兩個(gè)訓(xùn)練過程在第80步之后才緩慢上升,且波動(dòng)更為明顯;R3始終保持較低的梯度范數(shù),表明優(yōu)化過程更加穩(wěn)定;使用R3時(shí),熵在大約第25步后開始穩(wěn)步上升,表明模型更早地開始探索更優(yōu)策略,不使用R3時(shí),熵上升得更晚,且波動(dòng)較大。

MoE架構(gòu)已成為擴(kuò)展現(xiàn)代語言模型的基石,它采用門控網(wǎng)絡(luò),對每個(gè)token稀疏地僅激活一部分專家參數(shù),將模型的總參數(shù)數(shù)量與其推理成本分離開來,大幅提升了模型容量。但由于門控網(wǎng)絡(luò)的敏感性,MoE模型容易受到訓(xùn)練不穩(wěn)定性的影響,路由穩(wěn)健性成為有效模型收斂的核心挑戰(zhàn)。此次論文中研究人員在訓(xùn)練過程中重用推理時(shí)的路由分布,在保留梯度流的同時(shí)對齊專家選擇,為行業(yè)提供了新的研究思路。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
美女视频网站黄色亚洲| 色综合天天天天做夜夜夜夜做| 激情都市一区二区| 精品国产欧美一区二区| 国产一区高清在线| 最新不卡av在线| 欧美午夜影院一区| 国产资源精品在线观看| 亚洲人快播电影网| 欧美一区二区三区日韩视频| 久久99久久精品| 17c精品麻豆一区二区免费| 欧美偷拍一区二区| 高清视频一区二区| 亚洲成人av在线电影| 久久综合色综合88| 欧美影院一区二区三区| 经典三级视频一区| 亚洲成av人片观看| 国产精品久久久久一区二区三区共| 欧美三区在线视频| 成人aaaa免费全部观看| 日本午夜精品视频在线观看| 欧美激情一区二区三区| 91精品欧美综合在线观看最新| 高清shemale亚洲人妖| 免费久久99精品国产| 日韩伦理免费电影| 2023国产精品自拍| 制服丝袜av成人在线看| 在线观看三级视频欧美| 成人动漫精品一区二区| 久久精品999| 日韩激情视频网站| 亚洲图片自拍偷拍| 日韩美女啊v在线免费观看| 久久精品在线观看| 久久久亚洲综合| 欧美变态tickle挠乳网站| 欧美日韩国产美| 欧美日韩一区二区三区四区五区| 99re热视频精品| 成人免费高清视频在线观看| 国产在线精品一区二区| 精品一区二区综合| 国产剧情一区在线| 国内精品伊人久久久久av一坑| 精品夜夜嗨av一区二区三区| 五月天丁香久久| 免费人成精品欧美精品| 久久www免费人成看片高清| 日本中文字幕一区| 久久99精品久久久久久动态图| 日韩黄色免费网站| 日韩**一区毛片| 看电影不卡的网站| 国产一区二区福利| 国产精品性做久久久久久| 国产尤物一区二区在线| 国产精品1区2区| 不卡的av中国片| 日本久久精品电影| 欧美日本免费一区二区三区| 在线电影国产精品| www日韩大片| 综合中文字幕亚洲| 亚洲一区二区三区精品在线| 天天色天天爱天天射综合| 日本伊人午夜精品| 国产成人精品免费网站| 成人黄动漫网站免费app| 91麻豆福利精品推荐| 欧美日韩视频在线第一区 | 久久99精品久久久| 国产.精品.日韩.另类.中文.在线.播放 | 国产欧美日韩精品在线| 中文在线一区二区| 一区二区国产视频| 久久精品999| 91浏览器在线视频| 欧美一级免费观看| 中文字幕在线视频一区| 亚洲综合男人的天堂| 国内精品第一页| 欧美日精品一区视频| 26uuu国产电影一区二区| 亚洲欧美日韩综合aⅴ视频| 日韩黄色在线观看| 色综合中文字幕国产 | 欧美日韩成人综合在线一区二区| 大胆欧美人体老妇| 在线视频国内一区二区| av一二三不卡影片| 一本久久a久久精品亚洲| 国产剧情在线观看一区二区| www激情久久| 欧美午夜免费电影| 成人在线综合网| 亚洲区小说区图片区qvod| 成人av午夜电影| 成人国产精品视频| 日韩精品一区第一页| 国产精品综合二区| 在线成人小视频| 亚洲丝袜制服诱惑| 国产经典欧美精品| 精品久久久三级丝袜| 亚洲成人免费视频| 一本大道久久精品懂色aⅴ| 亚洲精品一区二区三区蜜桃下载| 亚洲一区在线播放| 99re热视频精品| 欧美激情中文不卡| 国内不卡的二区三区中文字幕 | 不卡av免费在线观看| 欧美一级一区二区| 日韩精品电影在线| 51精品秘密在线观看| 夜夜揉揉日日人人青青一国产精品| 国产福利91精品| 久久蜜桃一区二区| 久久精品国产999大香线蕉| 欧美精三区欧美精三区| 亚洲已满18点击进入久久| 波多野结衣一区二区三区 | 极品少妇一区二区| 2023国产精华国产精品| 毛片av一区二区三区| 欧美一区二区播放| 国产在线精品一区二区 | 亚洲国产精品激情在线观看| 黑人巨大精品欧美一区| 精品欧美乱码久久久久久1区2区| 日本不卡视频在线| 日韩免费一区二区| 丁香另类激情小说| 中文字幕一区二区三区不卡 | 久久激情综合网| 国产性天天综合网| 成人国产精品免费| 亚洲乱码中文字幕| 欧美一区二区三区在线观看| 乱一区二区av| 国产精品国产自产拍在线| 色琪琪一区二区三区亚洲区| 一区二区三区不卡在线观看| 欧美精品乱码久久久久久| 久久99最新地址| 国产精品少妇自拍| 欧美日韩视频专区在线播放| 狠狠色狠狠色综合系列| 国产精品国产三级国产三级人妇 | 久久久99精品久久| 99久久精品一区| 日韩福利视频网| 中文字幕中文字幕在线一区| 色综合久久综合中文综合网| 日本在线不卡视频一二三区| 国产精品三级av在线播放| 欧美少妇一区二区| 国产精品1区2区| 三级一区在线视频先锋| 久久久久久麻豆| 欧美日韩一区二区三区不卡| 国产乱一区二区| 偷窥少妇高潮呻吟av久久免费| 久久看人人爽人人| 欧美夫妻性生活| 97久久精品人人做人人爽50路| 视频一区国产视频| 亚洲视频网在线直播| 日韩精品专区在线| 欧美在线看片a免费观看| 久久不见久久见免费视频1| 一区二区三区精品久久久| 久久久久久免费网| 日韩三级中文字幕| 欧美日韩中文字幕精品| 成a人片国产精品| 国产一区二区在线影院| 亚洲成人黄色影院| 一区二区成人在线观看| 日韩一区在线看| 国产网站一区二区三区| 精品欧美黑人一区二区三区| 欧美探花视频资源| 色伊人久久综合中文字幕| 成人一级视频在线观看| 韩国成人精品a∨在线观看| 天天综合天天综合色| 亚洲一二三四久久| 亚洲综合小说图片| 一区二区三区四区在线| 亚洲少妇中出一区| 最好看的中文字幕久久| 1000精品久久久久久久久| 国产精品久久久久影院老司| 中文字幕av一区二区三区高| 国产清纯美女被跳蛋高潮一区二区久久w | 国产亚洲成aⅴ人片在线观看|