滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 游戲之家 > 正文內(nèi)容

UCSD與英特爾聯(lián)手推出PettingLLMs框架，多智能體協(xié)同訓(xùn)練提升LLM任務(wù)表現(xiàn)

時(shí)間：2025-11-08 13:51:47 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

在大語(yǔ)言模型（LLM）驅(qū)動(dòng)的智能體研究領(lǐng)域，多智能體協(xié)作的強(qiáng)化學(xué)習(xí)機(jī)制長(zhǎng)期面臨技術(shù)瓶頸。現(xiàn)有訓(xùn)練框架普遍聚焦單智能體優(yōu)化，而醫(yī)療診斷、科研探索、復(fù)雜編程等場(chǎng)景中，多智能體協(xié)同工作流已被證明能顯著提升任務(wù)表現(xiàn)。針對(duì)這一矛盾，來(lái)自加州大學(xué)圣地亞哥分校與英特爾的聯(lián)合研究團(tuán)隊(duì)，提出了首個(gè)通用化多智能體強(qiáng)化學(xué)習(xí)框架PettingLLMs，實(shí)現(xiàn)了跨任務(wù)、跨模型規(guī)模的群體智能進(jìn)化。

傳統(tǒng)強(qiáng)化學(xué)習(xí)算法GRPO（Group Relative Policy Optimization）通過(guò)同一上下文生成候選回答并計(jì)算相對(duì)優(yōu)勢(shì)，但其核心假設(shè)要求比較組內(nèi)所有回答必須基于完全相同的輸入提示（prompt）。在多智能體多輪交互場(chǎng)景中，這一條件難以滿足——不同智能體在不同輪次接收的提示往往包含歷史對(duì)話、其他智能體生成的中間結(jié)果等動(dòng)態(tài)信息。例如編程任務(wù)中，第二輪的提示可能同時(shí)包含原始需求、智能體A生成的代碼框架以及智能體B編寫(xiě)的單元測(cè)試用例。若強(qiáng)行將跨輪次、跨智能體的回答納入同一比較組，將直接破壞GRPO的公平性假設(shè)，導(dǎo)致優(yōu)勢(shì)計(jì)算基準(zhǔn)混亂。

研究團(tuán)隊(duì)提出的解決方案包含兩大核心創(chuàng)新。首先是基于貪心搜索的樹(shù)狀采樣機(jī)制：每個(gè)輪次中，每個(gè)智能體作為節(jié)點(diǎn)進(jìn)行K次分支探索，系統(tǒng)動(dòng)態(tài)選擇當(dāng)前獎(jiǎng)勵(lì)值最高的智能體路徑進(jìn)行下一輪擴(kuò)展。這種設(shè)計(jì)在保證組內(nèi)回答批次量的同時(shí)，通過(guò)動(dòng)態(tài)路徑選擇維持了優(yōu)勢(shì)計(jì)算的公平性。其次是角色-全局雙獎(jiǎng)勵(lì)函數(shù)：每個(gè)智能體的獎(jiǎng)勵(lì)既包含角色專屬目標(biāo)（如代碼生成質(zhì)量），也納入全局任務(wù)指標(biāo)（如系統(tǒng)整體通過(guò)率），確保個(gè)體能力進(jìn)化與群體協(xié)作的平衡。

為支持不同場(chǎng)景下的訓(xùn)練需求，研究團(tuán)隊(duì)構(gòu)建了異步分發(fā)訓(xùn)練系統(tǒng)。該系統(tǒng)通過(guò)路由模塊智能分配數(shù)據(jù)流：在專屬模型模式下，不同智能體的交互軌跡被定向發(fā)送至獨(dú)立資源池進(jìn)行模型更新；共享模型模式下，所有軌跡數(shù)據(jù)則匯總至同一資源池進(jìn)行聯(lián)合優(yōu)化。這種靈活架構(gòu)使得研究人員可根據(jù)任務(wù)特性，在角色專業(yè)化與模型通用化之間自由切換。

開(kāi)源框架PettingLLMs大幅降低了多智能體強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)門(mén)檻。開(kāi)發(fā)者僅需定義任務(wù)特定的智能體交互邏輯與獎(jiǎng)勵(lì)函數(shù)，即可利用框架內(nèi)置的采樣算法、資源調(diào)度系統(tǒng)和環(huán)境適配接口快速構(gòu)建訓(xùn)練環(huán)境?？蚣苤С植煌Ｐ团c智能體的自由映射，并兼容LoRA等輕量化適配技術(shù)。目前，框架已預(yù)置數(shù)學(xué)推理、代碼生成、策略游戲等主流任務(wù)環(huán)境，并提供完整的環(huán)境開(kāi)發(fā)教程。

實(shí)證研究覆蓋Qwen3-1.7B與Qwen3-8B兩個(gè)模型規(guī)模，涉及規(guī)劃（推箱子、路徑規(guī)劃）、代碼（LiveCodeBench、APPS競(jìng)賽集）、數(shù)學(xué)（AIME競(jìng)賽、奧林匹克基準(zhǔn)）三大類任務(wù)。實(shí)驗(yàn)數(shù)據(jù)顯示，采用AT-GRPO算法訓(xùn)練后，推箱子任務(wù)成功率從14%躍升至96%，路徑規(guī)劃任務(wù)準(zhǔn)確率從47%提升至99.5%；代碼生成任務(wù)中，LiveCodeBench、APPS、CodeContests的得分分別提高6.1%、4.2%和7.0%；數(shù)學(xué)推理任務(wù)AIME 2024與2025的得分提升達(dá)9.0%和17.9%。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了框架設(shè)計(jì)的合理性。單智能體訓(xùn)練模式下，即使將規(guī)劃、工具等子角色分開(kāi)訓(xùn)練，其指標(biāo)提升幅度顯著低于多智能體協(xié)作模式；角色策略互換實(shí)驗(yàn)顯示，已訓(xùn)練成熟的智能體組合若強(qiáng)行調(diào)換角色，任務(wù)準(zhǔn)確率將從96%暴跌至6%，證明不同智能體習(xí)得的是互補(bǔ)且不可替代的能力。訓(xùn)練過(guò)程分析表明，隨著迭代進(jìn)行，智能體間的協(xié)作效率持續(xù)提升，完成任務(wù)所需的平均交互輪次明顯下降。

該研究成果已通過(guò)開(kāi)源代碼與論文形式公開(kāi)。項(xiàng)目地址：https://github.com/pettingllms-ai/PettingLLMs；論文鏈接：https://huggingface.co/papers/2510.11062。研究者表示，這一框架為復(fù)雜任務(wù)中的群體智能進(jìn)化提供了通用解決方案，其模塊化設(shè)計(jì)可支持未來(lái)更多類型智能體的接入與協(xié)同。

11-08

2026款夏：以全方位升級(jí)，為家庭出行打造專屬“移動(dòng)生活空間”

11-08

王興興烏鎮(zhèn)峰會(huì)談機(jī)器人：全球共創(chuàng)加速發(fā)展，明后年將迎新驚喜

王興興表示，機(jī)器人硬件領(lǐng)域宇樹(shù)科技已經(jīng)研究九年了。從2016年開(kāi)始，宇樹(shù)科技硬件核心零部件開(kāi)始自研，陸續(xù)做出了更加廉價(jià)的四足機(jī)器人和人形機(jī)器人，后來(lái)這些產(chǎn)品又出售給了全球頂尖的實(shí)驗(yàn)室和高校，大家共同在上面開(kāi)…

11-08

杭州“六小龍”共話科技未來(lái)：從技術(shù)突破到社會(huì)變革的無(wú)限可能

11-08

《黑神話：悟空》馮驥談國(guó)產(chǎn)品牌：中國(guó)用戶對(duì)優(yōu)質(zhì)本土產(chǎn)品熱情遠(yuǎn)超預(yù)期

11-08

持續(xù)兩年法律戰(zhàn)終收尾，科樂(lè)美與Cygames就《賽馬娘Pretty Derby》專利案庭外和解

11-08

?王興興烏鎮(zhèn)峰會(huì)談機(jī)器人：全球共創(chuàng)促發(fā)展，明后年或有新驚喜?

11-08

從網(wǎng)咖海鮮自助到博物館食堂餐飲跨界融合掀起消費(fèi)體驗(yàn)新熱潮

11-07

從“酒都”到“動(dòng)力電池之都”：宜賓如何借新流域經(jīng)濟(jì)領(lǐng)跑西部？

11-07

當(dāng)超級(jí)月亮遇上策略游戲：天文規(guī)律與策略邏輯的奇妙碰撞

11-07

英偉達(dá)入局6G：以AI-RAN為刃，重塑通信與算力新格局

11-07

金手指開(kāi)掛爽感足，透視異能短劇如何憑2.6億播放量出圈？

11-07

17萬(wàn)崗位震蕩背后：AI取代人類工作？Scale AI研究稱自動(dòng)化率僅3%

11-07

首部真人版《塞爾達(dá)傳說(shuō)》大電影新西蘭開(kāi)拍，演員陣容及主創(chuàng)團(tuán)隊(duì)曝光

11-07

游戲新周期發(fā)力：完美世界業(yè)績(jī)反轉(zhuǎn)，映射A股游戲板塊高景氣回歸

11-06

點(diǎn)擊查看更多 +

全站最新

科大訊飛2025開(kāi)發(fā)者節(jié)亮點(diǎn)紛呈：星火升級(jí)，軟硬一體，點(diǎn)亮全球AI新未來(lái)

科大訊飛2025開(kāi)發(fā)者節(jié)：星火大模型升級(jí)，多領(lǐng)域突破，啟動(dòng)全球計(jì)劃共筑AI新生態(tài)

嵐圖泰山11月18日登場(chǎng) 新能源國(guó)家隊(duì)旗艦重塑豪華大六座SUV新標(biāo)桿

科大訊飛2025開(kāi)發(fā)者節(jié)發(fā)布星火X1.5等成果，啟動(dòng)“星火點(diǎn)亮全球”計(jì)劃

別克至境世家MPV座艙亮點(diǎn)多：環(huán)抱三聯(lián)屏、4K智慧屏等科技配置齊上陣

北京現(xiàn)代發(fā)布會(huì)直指車(chē)圈營(yíng)銷(xiāo)亂象新純電SUV EO羿歐能否力挽狂瀾？

熱門(mén)內(nèi)容

本欄最新

2026款夏：以全方位升級(jí)，為家庭出行打造專屬“移動(dòng)生活空間”

19.68萬(wàn)起享豪華配置！2026款夏煥新登場(chǎng)，重新定義家用MPV新標(biāo)桿

品質(zhì)為基，北京現(xiàn)代以EO羿歐開(kāi)啟新能源“全生命周期”新征程

2026款比亞迪夏煥新登場(chǎng)！豪華配置+多重升級(jí)，打造家庭出行新體驗(yàn)

2026款夏煥新登場(chǎng)，以全能實(shí)力解鎖家庭出行豪華舒適新體驗(yàn)

2026款夏“家庭頭等艙”來(lái)襲，以全能實(shí)力解鎖家庭出行幸福新體驗(yàn)

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

UCSD與英特爾聯(lián)手推出PettingLLMs框架，多智能體協(xié)同訓(xùn)練提升LLM任務(wù)表現(xiàn)

日本精品一区二区三区高清久久

UCSD與英特爾聯(lián)手推出PettingLLMs框架，多智能體協(xié)同訓(xùn)練提升LLM任務(wù)表現(xiàn)