日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

UCSD與英特爾聯(lián)手推出PettingLLMs框架,多智能體協(xié)同訓(xùn)練提升LLM任務(wù)表現(xiàn)

   時(shí)間:2025-11-08 13:51:47 來(lái)源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無(wú)障礙通道
 

在大語(yǔ)言模型(LLM)驅(qū)動(dòng)的智能體研究領(lǐng)域,多智能體協(xié)作的強(qiáng)化學(xué)習(xí)機(jī)制長(zhǎng)期面臨技術(shù)瓶頸。現(xiàn)有訓(xùn)練框架普遍聚焦單智能體優(yōu)化,而醫(yī)療診斷、科研探索、復(fù)雜編程等場(chǎng)景中,多智能體協(xié)同工作流已被證明能顯著提升任務(wù)表現(xiàn)。針對(duì)這一矛盾,來(lái)自加州大學(xué)圣地亞哥分校與英特爾的聯(lián)合研究團(tuán)隊(duì),提出了首個(gè)通用化多智能體強(qiáng)化學(xué)習(xí)框架PettingLLMs,實(shí)現(xiàn)了跨任務(wù)、跨模型規(guī)模的群體智能進(jìn)化。

傳統(tǒng)強(qiáng)化學(xué)習(xí)算法GRPO(Group Relative Policy Optimization)通過(guò)同一上下文生成候選回答并計(jì)算相對(duì)優(yōu)勢(shì),但其核心假設(shè)要求比較組內(nèi)所有回答必須基于完全相同的輸入提示(prompt)。在多智能體多輪交互場(chǎng)景中,這一條件難以滿足——不同智能體在不同輪次接收的提示往往包含歷史對(duì)話、其他智能體生成的中間結(jié)果等動(dòng)態(tài)信息。例如編程任務(wù)中,第二輪的提示可能同時(shí)包含原始需求、智能體A生成的代碼框架以及智能體B編寫(xiě)的單元測(cè)試用例。若強(qiáng)行將跨輪次、跨智能體的回答納入同一比較組,將直接破壞GRPO的公平性假設(shè),導(dǎo)致優(yōu)勢(shì)計(jì)算基準(zhǔn)混亂。

研究團(tuán)隊(duì)提出的解決方案包含兩大核心創(chuàng)新。首先是基于貪心搜索的樹(shù)狀采樣機(jī)制:每個(gè)輪次中,每個(gè)智能體作為節(jié)點(diǎn)進(jìn)行K次分支探索,系統(tǒng)動(dòng)態(tài)選擇當(dāng)前獎(jiǎng)勵(lì)值最高的智能體路徑進(jìn)行下一輪擴(kuò)展。這種設(shè)計(jì)在保證組內(nèi)回答批次量的同時(shí),通過(guò)動(dòng)態(tài)路徑選擇維持了優(yōu)勢(shì)計(jì)算的公平性。其次是角色-全局雙獎(jiǎng)勵(lì)函數(shù):每個(gè)智能體的獎(jiǎng)勵(lì)既包含角色專屬目標(biāo)(如代碼生成質(zhì)量),也納入全局任務(wù)指標(biāo)(如系統(tǒng)整體通過(guò)率),確保個(gè)體能力進(jìn)化與群體協(xié)作的平衡。

為支持不同場(chǎng)景下的訓(xùn)練需求,研究團(tuán)隊(duì)構(gòu)建了異步分發(fā)訓(xùn)練系統(tǒng)。該系統(tǒng)通過(guò)路由模塊智能分配數(shù)據(jù)流:在專屬模型模式下,不同智能體的交互軌跡被定向發(fā)送至獨(dú)立資源池進(jìn)行模型更新;共享模型模式下,所有軌跡數(shù)據(jù)則匯總至同一資源池進(jìn)行聯(lián)合優(yōu)化。這種靈活架構(gòu)使得研究人員可根據(jù)任務(wù)特性,在角色專業(yè)化與模型通用化之間自由切換。

開(kāi)源框架PettingLLMs大幅降低了多智能體強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)門(mén)檻。開(kāi)發(fā)者僅需定義任務(wù)特定的智能體交互邏輯與獎(jiǎng)勵(lì)函數(shù),即可利用框架內(nèi)置的采樣算法、資源調(diào)度系統(tǒng)和環(huán)境適配接口快速構(gòu)建訓(xùn)練環(huán)境??蚣苤С植煌P团c智能體的自由映射,并兼容LoRA等輕量化適配技術(shù)。目前,框架已預(yù)置數(shù)學(xué)推理、代碼生成、策略游戲等主流任務(wù)環(huán)境,并提供完整的環(huán)境開(kāi)發(fā)教程。

實(shí)證研究覆蓋Qwen3-1.7B與Qwen3-8B兩個(gè)模型規(guī)模,涉及規(guī)劃(推箱子、路徑規(guī)劃)、代碼(LiveCodeBench、APPS競(jìng)賽集)、數(shù)學(xué)(AIME競(jìng)賽、奧林匹克基準(zhǔn))三大類任務(wù)。實(shí)驗(yàn)數(shù)據(jù)顯示,采用AT-GRPO算法訓(xùn)練后,推箱子任務(wù)成功率從14%躍升至96%,路徑規(guī)劃任務(wù)準(zhǔn)確率從47%提升至99.5%;代碼生成任務(wù)中,LiveCodeBench、APPS、CodeContests的得分分別提高6.1%、4.2%和7.0%;數(shù)學(xué)推理任務(wù)AIME 2024與2025的得分提升達(dá)9.0%和17.9%。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了框架設(shè)計(jì)的合理性。單智能體訓(xùn)練模式下,即使將規(guī)劃、工具等子角色分開(kāi)訓(xùn)練,其指標(biāo)提升幅度顯著低于多智能體協(xié)作模式;角色策略互換實(shí)驗(yàn)顯示,已訓(xùn)練成熟的智能體組合若強(qiáng)行調(diào)換角色,任務(wù)準(zhǔn)確率將從96%暴跌至6%,證明不同智能體習(xí)得的是互補(bǔ)且不可替代的能力。訓(xùn)練過(guò)程分析表明,隨著迭代進(jìn)行,智能體間的協(xié)作效率持續(xù)提升,完成任務(wù)所需的平均交互輪次明顯下降。

該研究成果已通過(guò)開(kāi)源代碼與論文形式公開(kāi)。項(xiàng)目地址:https://github.com/pettingllms-ai/PettingLLMs;論文鏈接:https://huggingface.co/papers/2510.11062。研究者表示,這一框架為復(fù)雜任務(wù)中的群體智能進(jìn)化提供了通用解決方案,其模塊化設(shè)計(jì)可支持未來(lái)更多類型智能體的接入與協(xié)同。

 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
欧美本精品男人aⅴ天堂| 洋洋成人永久网站入口| 一个色在线综合| 欧美专区在线观看一区| 日韩精品久久久久久| 日韩视频国产视频| 国产成人精品亚洲午夜麻豆| 亚洲同性gay激情无套| 精品婷婷伊人一区三区三| 久久99在线观看| 1024成人网| 精品理论电影在线观看 | 日韩理论片网站| 日韩美女主播在线视频一区二区三区 | 欧美日韩高清影院| 国产精品456露脸| 日韩精彩视频在线观看| 国产精品久久久久一区二区三区| 777xxx欧美| 91天堂素人约啪| 国产一区二区三区av电影| 一区二区成人在线观看| 国产精品天天看| 日韩一区二区三| 色哟哟精品一区| 福利电影一区二区| 久久成人久久鬼色| 婷婷久久综合九色国产成人| 中文字幕一区视频| 国产婷婷一区二区| 精品美女一区二区| 9191国产精品| 欧美精品在线一区二区三区| 99久久99久久精品免费观看| 国产剧情一区在线| 美女视频黄 久久| 五月综合激情网| 亚洲精品国产a| 18欧美乱大交hd1984| 久久久一区二区三区捆绑**| 日韩一区二区精品| 欧美日韩成人激情| 欧美中文字幕久久| 色婷婷av一区二区三区gif| 波多野结衣在线一区| 国产精品18久久久久| 国产真实乱子伦精品视频| 久久99日本精品| 激情都市一区二区| 国产真实乱对白精彩久久| 国产乱对白刺激视频不卡| 国产成人精品亚洲777人妖| 国产传媒一区在线| 成人av在线一区二区三区| av在线不卡网| 欧美日韩一区二区在线观看| 欧美军同video69gay| 日韩欧美激情四射| 久久精品一二三| 国产精品久久久久影院色老大| 亚洲少妇最新在线视频| 一区二区欧美视频| 另类调教123区| 成人高清免费观看| 精品视频在线免费| 久久综合九色综合欧美亚洲| 国产精品福利影院| 性欧美大战久久久久久久久| 日韩精品亚洲专区| 国内精品国产成人国产三级粉色 | 在线成人av网站| 日韩三级视频在线观看| 国产亚洲自拍一区| 亚洲一区二区三区四区五区黄| 日韩av中文字幕一区二区三区| 精品综合久久久久久8888| 成人中文字幕合集| 4438成人网| 国产精品女主播av| 日本中文字幕一区二区有限公司| 国产99精品国产| 欧美老人xxxx18| 国产精品久久久久影院| 蜜桃久久av一区| 色天使色偷偷av一区二区| 日韩欧美国产一二三区| 亚洲人xxxx| 国产在线国偷精品免费看| 欧美亚洲国产怡红院影院| 久久久www成人免费无遮挡大片| 亚洲欧美日韩电影| 国内不卡的二区三区中文字幕| 91久久精品一区二区三| 国产亚洲欧美一级| 午夜精品久久久久久久久久久| 成人午夜视频福利| 欧美一级精品在线| 有坂深雪av一区二区精品| 久久av中文字幕片| 91麻豆精品国产91久久久| 中文字幕制服丝袜一区二区三区| 青青草伊人久久| 在线观看国产91| 亚洲欧美激情视频在线观看一区二区三区 | 欧美日韩国产综合视频在线观看| 欧美国产禁国产网站cc| 蜜桃在线一区二区三区| 欧美性猛交xxxxxxxx| 国产精品成人免费精品自在线观看| 轻轻草成人在线| 欧美性xxxxx极品少妇| 国产精品色哟哟网站| 国产精品自在欧美一区| 日韩视频永久免费| 日韩在线一区二区三区| 色婷婷精品大视频在线蜜桃视频| 国产精品乱子久久久久| 国产成人免费网站| 国产日产欧产精品推荐色| 精东粉嫩av免费一区二区三区| 91精品国产福利| 日韩激情一二三区| 777亚洲妇女| 免费观看30秒视频久久| 在线不卡一区二区| 中文子幕无线码一区tr| 亚洲天堂成人在线观看| 亚洲综合免费观看高清完整版在线| 亚洲国产中文字幕在线视频综合| 日韩高清在线不卡| 一区二区三区在线视频观看| 国v精品久久久网| 久久九九99视频| 国产激情91久久精品导航| 日韩欧美精品在线视频| 亚洲国产成人精品视频| 日本中文在线一区| 国产精品欧美一级免费| 欧美一区二区三区白人| 色婷婷精品大视频在线蜜桃视频| 国产美女av一区二区三区| 天天色天天爱天天射综合| 自拍偷拍国产亚洲| 国产亚洲欧美日韩在线一区| 欧美精品v日韩精品v韩国精品v| 亚洲伦理在线免费看| 国产真实乱偷精品视频免| 国产高清亚洲一区| 亚洲高清一区二区三区| 91麻豆精品国产无毒不卡在线观看 | 中文字幕av一区二区三区高| 一区二区三区国产精品| 欧美性色黄大片| 色综合久久天天综合网| 国产高清在线观看免费不卡| 久久www免费人成看片高清| 热久久久久久久| 日本一道高清亚洲日美韩| 调教+趴+乳夹+国产+精品| 亚洲自拍偷拍综合| 亚洲精品乱码久久久久久久久| 中文字幕av在线一区二区三区| 欧美精品一区二区高清在线观看| 日韩一区二区三区视频在线观看| 欧美福利视频一区| 欧美精品久久一区| 欧美日韩高清不卡| 51午夜精品国产| 日韩欧美一卡二卡| 久久精品亚洲乱码伦伦中文| 国产亚洲欧美在线| 亚洲色图制服丝袜| 亚洲一级在线观看| 亚洲国产精品一区二区尤物区| 亚洲成av人在线观看| 天天色天天操综合| 久久精品免费看| 成人免费不卡视频| 色综合天天狠狠| 欧美日韩二区三区| 日韩欧美色综合网站| 国产女人18毛片水真多成人如厕| 中文字幕第一区| 亚洲精品一二三| 日韩精品免费专区| 九一久久久久久| 成人小视频在线观看| 一本大道久久a久久精品综合| 欧美三级资源在线| 日韩精品一区国产麻豆| 久久香蕉国产线看观看99| 亚洲国产激情av| 五月激情综合色| 国产成人精品午夜视频免费| 色天使色偷偷av一区二区| 欧美va亚洲va在线观看蝴蝶网| 国产精品免费丝袜| 日韩高清一区在线| 99综合影院在线| 日韩视频免费观看高清完整版在线观看|