日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

斯坦福團(tuán)隊(duì)提出AgentFlow框架:智能體協(xié)作“邊做邊學(xué)” 解鎖復(fù)雜任務(wù)新路徑

   時(shí)間:2025-10-24 23:56:35 來(lái)源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無(wú)障礙通道
 

在人工智能領(lǐng)域,如何讓智能體高效完成復(fù)雜推理并靈活調(diào)用工具,一直是備受關(guān)注的核心問(wèn)題。傳統(tǒng)方法主要分為兩類:一類是訓(xùn)練單一的大語(yǔ)言模型,使其同時(shí)承擔(dān)思考和工具調(diào)用的雙重任務(wù);另一類則依賴靜態(tài)提示詞驅(qū)動(dòng)的“即插即用”型智能體系統(tǒng)。然而,前者在面對(duì)長(zhǎng)鏈推理、多樣化工具需求以及動(dòng)態(tài)環(huán)境反饋時(shí),訓(xùn)練過(guò)程往往不穩(wěn)定,且難以實(shí)現(xiàn)規(guī)模化擴(kuò)展;后者則缺乏自我學(xué)習(xí)和適應(yīng)能力,難以應(yīng)對(duì)復(fù)雜多變的實(shí)際場(chǎng)景。

針對(duì)這些挑戰(zhàn),斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)、加州大學(xué)圣地亞哥分校以及Lambda的研究團(tuán)隊(duì),提出了一種名為AgentFlow的創(chuàng)新框架。該框架通過(guò)多個(gè)獨(dú)立智能體模塊的協(xié)作,結(jié)合一種名為Flow-GRPO的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了智能體系統(tǒng)在復(fù)雜任務(wù)中的高效推理與工具調(diào)用。實(shí)驗(yàn)數(shù)據(jù)顯示,即使基于30億參數(shù)的模型,AgentFlow也能在搜索、代理、數(shù)學(xué)和科學(xué)任務(wù)等多個(gè)領(lǐng)域超越參數(shù)規(guī)模達(dá)4050億的Llama-3.1和2000億的GPT-4o。

AgentFlow的核心創(chuàng)新在于其模塊化設(shè)計(jì)。系統(tǒng)由四個(gè)具備記憶能力的專門化智能體組成:規(guī)劃器負(fù)責(zé)分析任務(wù)、制定策略并選擇工具;執(zhí)行器調(diào)用工具集并整合結(jié)果;驗(yàn)證器基于累積記憶評(píng)估中間結(jié)果是否符合目標(biāo);生成器則整合所有信息與反饋,生成最終答案或行動(dòng)建議。與傳統(tǒng)方法不同,規(guī)劃器并非固定不變,而是能夠在智能體交互的“流”中實(shí)時(shí)優(yōu)化,使決策過(guò)程隨著環(huán)境變化和其他智能體的反饋不斷自適應(yīng)調(diào)整。

為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)提出了Flow-GRPO算法,以解決多輪信用分配這一關(guān)鍵難題。該算法通過(guò)將軌跡最終結(jié)果的成功或失敗信號(hào)廣播至每一步,將復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一系列可處理的單輪策略更新。這種方法不僅緩解了獎(jiǎng)勵(lì)稀疏問(wèn)題,還顯著提升了訓(xùn)練效率,為智能體在復(fù)雜多輪推理中的穩(wěn)定學(xué)習(xí)提供了基礎(chǔ)。

在基準(zhǔn)測(cè)試中,AgentFlow展現(xiàn)了卓越的性能。以Qwen-2.5-7B-Instruct為基座模型的AgentFlow,在知識(shí)檢索、智能體推理、數(shù)學(xué)推理和科學(xué)推理四大類共10個(gè)跨領(lǐng)域任務(wù)上,均超越了現(xiàn)有領(lǐng)先方法。具體來(lái)看,其在知識(shí)檢索任務(wù)上的表現(xiàn)提升了14.9%,智能體推理任務(wù)提升了14.0%,數(shù)學(xué)推理任務(wù)提升了14.5%,科學(xué)推理任務(wù)提升了4.1%。值得注意的是,這些提升甚至超過(guò)了參數(shù)規(guī)模遠(yuǎn)大于其的專有模型,如GPT-4o。

實(shí)驗(yàn)還揭示了一些有趣的現(xiàn)象。例如,模型規(guī)模并非決定性能的唯一因素。使用70億參數(shù)的AgentFlow在多個(gè)任務(wù)上超過(guò)了約2000億參數(shù)的GPT-4o和4050億參數(shù)的Llama-3.1,在搜索任務(wù)上領(lǐng)先8.2%,在智能體任務(wù)上領(lǐng)先15.8%。這表明,合理的系統(tǒng)設(shè)計(jì)和訓(xùn)練方法可能比單純堆砌參數(shù)更有效。對(duì)比實(shí)驗(yàn)顯示,若采用離線監(jiān)督學(xué)習(xí)方式訓(xùn)練規(guī)劃器,性能反而顯著下降,平均降低19%。這進(jìn)一步證明了智能體在真實(shí)交互環(huán)境中進(jìn)行在線學(xué)習(xí)的必要性。

經(jīng)過(guò)Flow-GRPO強(qiáng)化訓(xùn)練的規(guī)劃器,還展現(xiàn)出了自主發(fā)現(xiàn)新解決路徑的能力。系統(tǒng)學(xué)會(huì)了根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合,并自發(fā)探索出新的工具使用模式。例如,在信息檢索任務(wù)中,系統(tǒng)會(huì)組合使用維基百科搜索和特定網(wǎng)頁(yè)增強(qiáng)搜索,通過(guò)工具鏈獲得更深入的信息挖掘。這種模式在未訓(xùn)練的推理流中幾乎未曾出現(xiàn)。

對(duì)于不同難度的任務(wù),AgentFlow也展現(xiàn)出了動(dòng)態(tài)調(diào)整推理深度的能力。在多跳搜索和密集長(zhǎng)鏈推理任務(wù)中,系統(tǒng)能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能,同時(shí)不會(huì)盲目增加平均推理步數(shù)。這意味著,對(duì)于長(zhǎng)難任務(wù),系統(tǒng)會(huì)增加有效的推理步數(shù)來(lái)提升正確率,而對(duì)于簡(jiǎn)單任務(wù),則不會(huì)浪費(fèi)計(jì)算資源。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
eeuss鲁片一区二区三区| 欧美日本韩国一区二区三区视频| 97se亚洲国产综合自在线| 亚洲国产精品高清| 99这里只有久久精品视频| 亚洲免费观看在线视频| 欧美色中文字幕| 裸体在线国模精品偷拍| 久久一夜天堂av一区二区三区| 国产一区二区三区蝌蚪| 最新欧美精品一区二区三区| 欧美在线一二三| 男女性色大片免费观看一区二区 | www.性欧美| 亚洲一区免费在线观看| 精品久久国产97色综合| 高清不卡在线观看| 午夜精品福利在线| 久久精品一区八戒影视| 欧美日韩综合在线免费观看| 国产高清不卡一区| 天天色综合天天| 国产精品福利一区| 欧美va在线播放| 欧美色欧美亚洲另类二区| 国产一区不卡视频| 日韩综合小视频| 亚洲视频一二区| 国产日韩欧美激情| 欧美电视剧免费观看| 欧美私人免费视频| 91在线视频播放| 国产福利一区二区三区视频| 蜜桃免费网站一区二区三区| 一区二区三区免费看视频| 欧美韩日一区二区三区四区| 欧美电视剧免费观看| 91精品国产麻豆国产自产在线| hitomi一区二区三区精品| 九九国产精品视频| 美腿丝袜亚洲一区| 午夜精品久久久久久| 亚洲一区影音先锋| 一区二区三区高清在线| 亚洲青青青在线视频| 国产精品美日韩| 欧美国产精品专区| 国产精品理论片在线观看| 国产色婷婷亚洲99精品小说| 日韩免费看网站| 日韩欧美电影一区| 久久综合狠狠综合久久综合88| 欧美成人精品3d动漫h| 欧美大片顶级少妇| 26uuu久久综合| 国产丝袜欧美中文另类| 国产午夜一区二区三区| 欧美激情一区二区三区蜜桃视频 | 国产午夜亚洲精品理论片色戒| 日韩欧美一级二级三级久久久| 91麻豆精品91久久久久久清纯| 精品视频在线视频| 538在线一区二区精品国产| 337p亚洲精品色噜噜狠狠| 4438成人网| 欧美成人video| 久久久噜噜噜久久人人看 | 亚洲精品一区二区三区香蕉| 日韩欧美国产一区二区三区 | 亚洲欧美电影院| 亚洲一区免费观看| 免费看精品久久片| 韩国成人精品a∨在线观看| 大陆成人av片| 一本久久综合亚洲鲁鲁五月天| 在线视频国内一区二区| 91精品国产一区二区| 久久精品视频在线看| 国产精品美女久久久久久久久久久 | 日韩免费观看高清完整版| 26uuu国产电影一区二区| 欧美国产激情一区二区三区蜜月| 国产精品狼人久久影院观看方式| 亚洲午夜日本在线观看| 狠狠色丁香婷婷综合久久片| 成人黄色片在线观看| 欧美裸体一区二区三区| 久久久噜噜噜久久人人看| 亚洲精品国产精品乱码不99 | 国产不卡一区视频| 欧美性高清videossexo| 精品精品欲导航| 亚洲欧美国产77777| 精品亚洲成a人| 91精彩视频在线观看| 337p粉嫩大胆噜噜噜噜噜91av | 精品一区二区三区在线观看国产| 国产超碰在线一区| 欧美精品777| 亚洲视频资源在线| 国产一区二区免费视频| 欧美无砖专区一中文字| 国产精品久久福利| 国模大尺度一区二区三区| 日本韩国精品一区二区在线观看| 精品美女一区二区| 午夜不卡av免费| 成人午夜精品一区二区三区| 91精品国产综合久久香蕉的特点 | 欧美一级淫片007| 亚洲精品中文在线影院| 国产激情一区二区三区| 在线综合视频播放| 午夜影院在线观看欧美| 色噜噜偷拍精品综合在线| 国产精品看片你懂得| 国产乱码精品一区二区三区av| 欧美视频一区二区三区| 一区二区三区精品在线| 色综合网站在线| 中文字幕一区二区三区在线不卡 | 久久久蜜臀国产一区二区| 麻豆视频观看网址久久| 欧美精品久久久久久久久老牛影院| 亚洲色图都市小说| 91蝌蚪porny成人天涯| 国产精品不卡在线观看| 成人激情校园春色| 国产精品麻豆网站| 丁香一区二区三区| 中文天堂在线一区| 99精品国产99久久久久久白柏| 亚洲国产精品成人综合| 成人免费视频播放| 国产精品美女久久久久av爽李琼| 福利一区二区在线| 中文字幕电影一区| 99精品久久免费看蜜臀剧情介绍| 亚洲日本在线视频观看| 一本一道久久a久久精品综合蜜臀| 1024成人网| 欧美三级日韩三级国产三级| 一二三区精品视频| 国产福利一区二区三区视频| 国产精品免费av| 欧美亚洲禁片免费| 首页国产欧美日韩丝袜| 日韩精品专区在线影院重磅| 国产美女精品在线| 最新成人av在线| 欧美日韩在线播| 日韩制服丝袜先锋影音| 久久婷婷色综合| 97久久精品人人澡人人爽| 亚洲一区二区精品视频| 日韩精品专区在线影院重磅| 国产成人av电影免费在线观看| 亚洲免费电影在线| 精品少妇一区二区三区在线播放| 高清在线观看日韩| 午夜伊人狠狠久久| 国产亚洲一区二区三区| 在线视频亚洲一区| 久久电影网站中文字幕| ...中文天堂在线一区| 欧美精品一级二级三级| 国产91在线观看| 亚洲成av人影院在线观看网| 国产无人区一区二区三区| 欧美日韩精品一区二区三区蜜桃| 国产福利一区二区三区视频| 水蜜桃久久夜色精品一区的特点 | 精品一区二区av| 亚洲一区视频在线观看视频| 久久网站热最新地址| 欧美日韩五月天| 处破女av一区二区| 日本人妖一区二区| 一区二区三区成人在线视频| 国产精品拍天天在线| 精品国产一区二区精华| 欧美另类变人与禽xxxxx| a4yy欧美一区二区三区| 久久激情五月激情| 亚洲国产精品影院| 综合分类小说区另类春色亚洲小说欧美 | 99精品国产91久久久久久| 久久成人久久爱| 亚洲成人久久影院| 一区二区三区在线高清| 国产精品欧美一区二区三区| 欧美大黄免费观看| 欧美一区二区三区四区高清| 日本韩国欧美一区二区三区| 丁香婷婷综合激情五月色| 国产做a爰片久久毛片| 美国三级日本三级久久99| 亚洲成精国产精品女| 亚洲在线中文字幕| 夜夜嗨av一区二区三区中文字幕|