在人工智能領(lǐng)域,如何讓智能體高效完成復(fù)雜推理并靈活調(diào)用工具,一直是備受關(guān)注的核心問(wèn)題。傳統(tǒng)方法主要分為兩類:一類是訓(xùn)練單一的大語(yǔ)言模型,使其同時(shí)承擔(dān)思考和工具調(diào)用的雙重任務(wù);另一類則依賴靜態(tài)提示詞驅(qū)動(dòng)的“即插即用”型智能體系統(tǒng)。然而,前者在面對(duì)長(zhǎng)鏈推理、多樣化工具需求以及動(dòng)態(tài)環(huán)境反饋時(shí),訓(xùn)練過(guò)程往往不穩(wěn)定,且難以實(shí)現(xiàn)規(guī)模化擴(kuò)展;后者則缺乏自我學(xué)習(xí)和適應(yīng)能力,難以應(yīng)對(duì)復(fù)雜多變的實(shí)際場(chǎng)景。
針對(duì)這些挑戰(zhàn),斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)、加州大學(xué)圣地亞哥分校以及Lambda的研究團(tuán)隊(duì),提出了一種名為AgentFlow的創(chuàng)新框架。該框架通過(guò)多個(gè)獨(dú)立智能體模塊的協(xié)作,結(jié)合一種名為Flow-GRPO的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了智能體系統(tǒng)在復(fù)雜任務(wù)中的高效推理與工具調(diào)用。實(shí)驗(yàn)數(shù)據(jù)顯示,即使基于30億參數(shù)的模型,AgentFlow也能在搜索、代理、數(shù)學(xué)和科學(xué)任務(wù)等多個(gè)領(lǐng)域超越參數(shù)規(guī)模達(dá)4050億的Llama-3.1和2000億的GPT-4o。
AgentFlow的核心創(chuàng)新在于其模塊化設(shè)計(jì)。系統(tǒng)由四個(gè)具備記憶能力的專門化智能體組成:規(guī)劃器負(fù)責(zé)分析任務(wù)、制定策略并選擇工具;執(zhí)行器調(diào)用工具集并整合結(jié)果;驗(yàn)證器基于累積記憶評(píng)估中間結(jié)果是否符合目標(biāo);生成器則整合所有信息與反饋,生成最終答案或行動(dòng)建議。與傳統(tǒng)方法不同,規(guī)劃器并非固定不變,而是能夠在智能體交互的“流”中實(shí)時(shí)優(yōu)化,使決策過(guò)程隨著環(huán)境變化和其他智能體的反饋不斷自適應(yīng)調(diào)整。
為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)提出了Flow-GRPO算法,以解決多輪信用分配這一關(guān)鍵難題。該算法通過(guò)將軌跡最終結(jié)果的成功或失敗信號(hào)廣播至每一步,將復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一系列可處理的單輪策略更新。這種方法不僅緩解了獎(jiǎng)勵(lì)稀疏問(wèn)題,還顯著提升了訓(xùn)練效率,為智能體在復(fù)雜多輪推理中的穩(wěn)定學(xué)習(xí)提供了基礎(chǔ)。
在基準(zhǔn)測(cè)試中,AgentFlow展現(xiàn)了卓越的性能。以Qwen-2.5-7B-Instruct為基座模型的AgentFlow,在知識(shí)檢索、智能體推理、數(shù)學(xué)推理和科學(xué)推理四大類共10個(gè)跨領(lǐng)域任務(wù)上,均超越了現(xiàn)有領(lǐng)先方法。具體來(lái)看,其在知識(shí)檢索任務(wù)上的表現(xiàn)提升了14.9%,智能體推理任務(wù)提升了14.0%,數(shù)學(xué)推理任務(wù)提升了14.5%,科學(xué)推理任務(wù)提升了4.1%。值得注意的是,這些提升甚至超過(guò)了參數(shù)規(guī)模遠(yuǎn)大于其的專有模型,如GPT-4o。
實(shí)驗(yàn)還揭示了一些有趣的現(xiàn)象。例如,模型規(guī)模并非決定性能的唯一因素。使用70億參數(shù)的AgentFlow在多個(gè)任務(wù)上超過(guò)了約2000億參數(shù)的GPT-4o和4050億參數(shù)的Llama-3.1,在搜索任務(wù)上領(lǐng)先8.2%,在智能體任務(wù)上領(lǐng)先15.8%。這表明,合理的系統(tǒng)設(shè)計(jì)和訓(xùn)練方法可能比單純堆砌參數(shù)更有效。對(duì)比實(shí)驗(yàn)顯示,若采用離線監(jiān)督學(xué)習(xí)方式訓(xùn)練規(guī)劃器,性能反而顯著下降,平均降低19%。這進(jìn)一步證明了智能體在真實(shí)交互環(huán)境中進(jìn)行在線學(xué)習(xí)的必要性。
經(jīng)過(guò)Flow-GRPO強(qiáng)化訓(xùn)練的規(guī)劃器,還展現(xiàn)出了自主發(fā)現(xiàn)新解決路徑的能力。系統(tǒng)學(xué)會(huì)了根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合,并自發(fā)探索出新的工具使用模式。例如,在信息檢索任務(wù)中,系統(tǒng)會(huì)組合使用維基百科搜索和特定網(wǎng)頁(yè)增強(qiáng)搜索,通過(guò)工具鏈獲得更深入的信息挖掘。這種模式在未訓(xùn)練的推理流中幾乎未曾出現(xiàn)。
對(duì)于不同難度的任務(wù),AgentFlow也展現(xiàn)出了動(dòng)態(tài)調(diào)整推理深度的能力。在多跳搜索和密集長(zhǎng)鏈推理任務(wù)中,系統(tǒng)能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能,同時(shí)不會(huì)盲目增加平均推理步數(shù)。這意味著,對(duì)于長(zhǎng)難任務(wù),系統(tǒng)會(huì)增加有效的推理步數(shù)來(lái)提升正確率,而對(duì)于簡(jiǎn)單任務(wù),則不會(huì)浪費(fèi)計(jì)算資源。











