滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

斯坦福團(tuán)隊(duì)提出AgentFlow框架：智能體協(xié)作“邊做邊學(xué)” 解鎖復(fù)雜任務(wù)新路徑

時(shí)間：2025-10-24 23:56:35 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

在人工智能領(lǐng)域，如何讓智能體高效完成復(fù)雜推理并靈活調(diào)用工具，一直是備受關(guān)注的核心問(wèn)題。傳統(tǒng)方法主要分為兩類：一類是訓(xùn)練單一的大語(yǔ)言模型，使其同時(shí)承擔(dān)思考和工具調(diào)用的雙重任務(wù)；另一類則依賴靜態(tài)提示詞驅(qū)動(dòng)的“即插即用”型智能體系統(tǒng)。然而，前者在面對(duì)長(zhǎng)鏈推理、多樣化工具需求以及動(dòng)態(tài)環(huán)境反饋時(shí)，訓(xùn)練過(guò)程往往不穩(wěn)定，且難以實(shí)現(xiàn)規(guī)模化擴(kuò)展；后者則缺乏自我學(xué)習(xí)和適應(yīng)能力，難以應(yīng)對(duì)復(fù)雜多變的實(shí)際場(chǎng)景。

針對(duì)這些挑戰(zhàn)，斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)、加州大學(xué)圣地亞哥分校以及Lambda的研究團(tuán)隊(duì)，提出了一種名為AgentFlow的創(chuàng)新框架。該框架通過(guò)多個(gè)獨(dú)立智能體模塊的協(xié)作，結(jié)合一種名為Flow-GRPO的強(qiáng)化學(xué)習(xí)算法，實(shí)現(xiàn)了智能體系統(tǒng)在復(fù)雜任務(wù)中的高效推理與工具調(diào)用。實(shí)驗(yàn)數(shù)據(jù)顯示，即使基于30億參數(shù)的模型，AgentFlow也能在搜索、代理、數(shù)學(xué)和科學(xué)任務(wù)等多個(gè)領(lǐng)域超越參數(shù)規(guī)模達(dá)4050億的Llama-3.1和2000億的GPT-4o。

AgentFlow的核心創(chuàng)新在于其模塊化設(shè)計(jì)。系統(tǒng)由四個(gè)具備記憶能力的專門化智能體組成：規(guī)劃器負(fù)責(zé)分析任務(wù)、制定策略并選擇工具；執(zhí)行器調(diào)用工具集并整合結(jié)果；驗(yàn)證器基于累積記憶評(píng)估中間結(jié)果是否符合目標(biāo)；生成器則整合所有信息與反饋，生成最終答案或行動(dòng)建議。與傳統(tǒng)方法不同，規(guī)劃器并非固定不變，而是能夠在智能體交互的“流”中實(shí)時(shí)優(yōu)化，使決策過(guò)程隨著環(huán)境變化和其他智能體的反饋不斷自適應(yīng)調(diào)整。

為了實(shí)現(xiàn)這一目標(biāo)，研究團(tuán)隊(duì)提出了Flow-GRPO算法，以解決多輪信用分配這一關(guān)鍵難題。該算法通過(guò)將軌跡最終結(jié)果的成功或失敗信號(hào)廣播至每一步，將復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一系列可處理的單輪策略更新。這種方法不僅緩解了獎(jiǎng)勵(lì)稀疏問(wèn)題，還顯著提升了訓(xùn)練效率，為智能體在復(fù)雜多輪推理中的穩(wěn)定學(xué)習(xí)提供了基礎(chǔ)。

在基準(zhǔn)測(cè)試中，AgentFlow展現(xiàn)了卓越的性能。以Qwen-2.5-7B-Instruct為基座模型的AgentFlow，在知識(shí)檢索、智能體推理、數(shù)學(xué)推理和科學(xué)推理四大類共10個(gè)跨領(lǐng)域任務(wù)上，均超越了現(xiàn)有領(lǐng)先方法。具體來(lái)看，其在知識(shí)檢索任務(wù)上的表現(xiàn)提升了14.9%，智能體推理任務(wù)提升了14.0%，數(shù)學(xué)推理任務(wù)提升了14.5%，科學(xué)推理任務(wù)提升了4.1%。值得注意的是，這些提升甚至超過(guò)了參數(shù)規(guī)模遠(yuǎn)大于其的專有模型，如GPT-4o。

實(shí)驗(yàn)還揭示了一些有趣的現(xiàn)象。例如，模型規(guī)模并非決定性能的唯一因素。使用70億參數(shù)的AgentFlow在多個(gè)任務(wù)上超過(guò)了約2000億參數(shù)的GPT-4o和4050億參數(shù)的Llama-3.1，在搜索任務(wù)上領(lǐng)先8.2%，在智能體任務(wù)上領(lǐng)先15.8%。這表明，合理的系統(tǒng)設(shè)計(jì)和訓(xùn)練方法可能比單純堆砌參數(shù)更有效。對(duì)比實(shí)驗(yàn)顯示，若采用離線監(jiān)督學(xué)習(xí)方式訓(xùn)練規(guī)劃器，性能反而顯著下降，平均降低19%。這進(jìn)一步證明了智能體在真實(shí)交互環(huán)境中進(jìn)行在線學(xué)習(xí)的必要性。

經(jīng)過(guò)Flow-GRPO強(qiáng)化訓(xùn)練的規(guī)劃器，還展現(xiàn)出了自主發(fā)現(xiàn)新解決路徑的能力。系統(tǒng)學(xué)會(huì)了根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合，并自發(fā)探索出新的工具使用模式。例如，在信息檢索任務(wù)中，系統(tǒng)會(huì)組合使用維基百科搜索和特定網(wǎng)頁(yè)增強(qiáng)搜索，通過(guò)工具鏈獲得更深入的信息挖掘。這種模式在未訓(xùn)練的推理流中幾乎未曾出現(xiàn)。

對(duì)于不同難度的任務(wù)，AgentFlow也展現(xiàn)出了動(dòng)態(tài)調(diào)整推理深度的能力。在多跳搜索和密集長(zhǎng)鏈推理任務(wù)中，系統(tǒng)能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能，同時(shí)不會(huì)盲目增加平均推理步數(shù)。這意味著，對(duì)于長(zhǎng)難任務(wù)，系統(tǒng)會(huì)增加有效的推理步數(shù)來(lái)提升正確率，而對(duì)于簡(jiǎn)單任務(wù)，則不會(huì)浪費(fèi)計(jì)算資源。

11-18

OPPO Reno15系列成都亮相：影像實(shí)況新玩法，2999元起售再掀熱潮

11-18

蘋果設(shè)計(jì)團(tuán)隊(duì)再遭打擊 iPhone Air核心設(shè)計(jì)師跳槽至AI創(chuàng)業(yè)公司

11-18

Arm與英偉達(dá)強(qiáng)強(qiáng)聯(lián)合：Neoverse平臺(tái)導(dǎo)入NVLink Fusion 共拓AI新未來(lái)

11-18

螞蟻集團(tuán)發(fā)布全模態(tài)AI助手“靈光”：30秒生成小應(yīng)用，多場(chǎng)景靈活交互

11-18

GSMA大中華區(qū)總裁斯寒：2030年部分地區(qū)率先部署6G，2040年連接數(shù)或超50億

11-18

千問(wèn)App公測(cè)，阿里在C端AI賽道開(kāi)啟生態(tài)躍遷新征程

11-18

安謀科技Arm China“周易”X3 NPU亮相：多項(xiàng)創(chuàng)新，端側(cè)大模型推理更高效

11-18

微博15億參數(shù)輕量級(jí)大模型VibeThinker：成本低性能強(qiáng)，開(kāi)啟AI新路徑

11-18

亞馬遜創(chuàng)始人貝索斯重返運(yùn)營(yíng)崗領(lǐng)銜AI新企Project Prometheus深耕工程應(yīng)用

11-18

日本AI新銳Sakana AI斬獲1.35億美元融資估值飆升開(kāi)啟雙線戰(zhàn)略新征程

11-18

斑馬口語(yǔ)正式上線：專屬“超人類外教”來(lái)襲，開(kāi)啟兒童口語(yǔ)學(xué)習(xí)新征程

11-18

貝索斯重返運(yùn)營(yíng)一線創(chuàng)辦AI公司，馬斯克嘲諷：跟風(fēng)者難成氣候？

11 月 18 日消息，據(jù)《紐約時(shí)報(bào)》昨日?qǐng)?bào)道，亞馬遜創(chuàng)始人杰夫?貝索斯投資創(chuàng)辦了一家新的人工智能初創(chuàng)公司，名為“ProjectPrometheus”（普羅米修斯計(jì)劃）。公開(kāi)資料顯示，Bajaj 曾領(lǐng)導(dǎo)并…

11-18

馬斯克Grok 4.1強(qiáng)勢(shì)登場(chǎng)，雙榜登頂，AI領(lǐng)域格局生變！

11-18

馬斯克xAI再發(fā)力：Grok 4.1性能飆升，多項(xiàng)測(cè)試表現(xiàn)亮眼

11-18

點(diǎn)擊查看更多 +

全站最新

安徽海螺新興產(chǎn)業(yè)股權(quán)投資基金登記成立出資額10億

三只羊因?qū)＠麢?quán)糾紛被起訴

蘭新鐵路甘青公司增資至約813.8億增幅約6.5%

俞敏洪名下關(guān)聯(lián)近百家企業(yè)

洲明科技、智譜AI等成立智顯機(jī)器人公司注冊(cè)資本5000萬(wàn)

哪吒汽車張勇等被執(zhí)行36.5萬(wàn)

熱門內(nèi)容

本欄最新

東風(fēng)奕派eπ007+深圳煥新登場(chǎng)：14萬(wàn)級(jí)激光雷達(dá)加持，四驅(qū)轎跑新選擇

24.9萬(wàn)起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標(biāo)桿

東風(fēng)奕派兩周年獻(xiàn)禮，eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，助力新能源賽道加速跑

東風(fēng)奕派兩周年獻(xiàn)禮：eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，為年輕人出行注入新動(dòng)力

東風(fēng)奕派eπ007+高能登場(chǎng)，以“奕派速度”為年輕人解鎖百萬(wàn)級(jí)出行新體驗(yàn)

嵐圖泰山來(lái)襲：外觀大氣內(nèi)飾豪華能否在高端SUV市場(chǎng)分一杯羹？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

斯坦福團(tuán)隊(duì)提出AgentFlow框架：智能體協(xié)作“邊做邊學(xué)” 解鎖復(fù)雜任務(wù)新路徑

日本精品一区二区三区高清久久