為什么Agent在演示時無所不能,到了實際場景卻頻頻拉胯?
一篇長達51頁的論文研究了自ChatGPT以來的主要智能體,給出參考框架:適應(yīng)性是其中關(guān)鍵。
智能體定義上不是只會被動回答的AI,而是能自己規(guī)劃、用工具(比如搜索引擎、代碼編譯器、數(shù)據(jù)庫)、記東西,一步步完成復雜任務(wù)。
當遇到新任務(wù)、新環(huán)境時,不需要重造一個新的智能體,而是通過 “微調(diào)自己” 或 “優(yōu)化工具”,快速適配需求(比如從寫普通代碼適配到寫垂直行業(yè)代碼)。
這篇論文作者陣容豪華,來自UIUC、斯坦福、普林斯頓、哈佛、UC伯克利等12所高校的三十多位研究者聯(lián)手,由UIUC的韓家煒教授團隊領(lǐng)銜,共同一作Pengcheng Jiang,Jiacheng Lin,Zhiyi Shi為UIUC博士生。
Agent“適應(yīng)性”的四個象限團隊認為,當前Agent系統(tǒng)的核心瓶頸在于適應(yīng)性:模型如何根據(jù)反饋信號調(diào)整自身行為。
為此,他們提出了一個2×2的分類框架,把現(xiàn)有的適應(yīng)方法切成了四大范式。
第一個維度是“優(yōu)化誰”:是優(yōu)化Agent本身(Agent Adaptation),還是它調(diào)用的工具(Tool Adaptation)。
第二個維度是“信號從哪來”:是來自工具執(zhí)行的結(jié)果,還是來自Agent最終輸出的評估。
據(jù)此分成四類:
A1范式讓Agent根據(jù)工具執(zhí)行的反饋來學習,比如代碼能不能跑通、檢索結(jié)果準不準。
A2范式則是用Agent的最終答案作為優(yōu)化信號,典型代表就是DeepSeek-R1這類用強化學習訓練推理能力的工作。
T1范式是即插即用:工具獨立訓練好,Agent直接調(diào)用,比如SAM、CLIP這些預(yù)訓練模型。
T2范式讓工具反過來根據(jù)Agent的輸出來優(yōu)化自己,形成一種共生適應(yīng)的關(guān)系。
這樣分類之后,有兩個好處:
開發(fā)遇到問題時,不用盲目試錯。想讓AI更擅長工具的使用細”,就選 A1;想讓整體推理更靠譜,就選A2;想讓工具通用好用,就選T1;想讓工具適配特定AI,就選 T2。
另外也明確了trade-off。改AI(A1/A2)靈活但成本更高,需要重新訓練模型。改工具(T1/T2)省錢,但受限于 AI 本身的能力。
論文中還有一個關(guān)鍵發(fā)現(xiàn):T2范式的數(shù)據(jù)效率遠超A2范式。
以檢索增強生成任務(wù)為例,Search-R1采用A2范式端到端訓練Agent,需要約17萬條訓練樣本。
而采用T2范式,只訓練一個輕量級的搜索子智能體來服務(wù)凍結(jié)的主模型,僅用2400條樣本就達到了相當?shù)男Ч?shù)據(jù)量減少了約70倍,訓練速度快了33倍。
更值得注意的是泛化能力的差異。在醫(yī)學問答這種專業(yè)領(lǐng)域測試中,T2訓練的智能體達到了76.6%的準確率,而A2訓練的Search-R1只有71.8%。
論文分析認為,這是因為A2范式要求模型同時學習領(lǐng)域知識、工具使用技能和任務(wù)推理三件事,優(yōu)化空間過于復雜;而T2范式下,凍結(jié)的大模型已經(jīng)具備知識和推理能力,小模型只需要學習“怎么搜”這一項程序性技能。
四大前沿方向指路論文最后指出了Agent適應(yīng)性研究的四個前沿方向。
協(xié)同適應(yīng)(Co-Adaptation)是最具挑戰(zhàn)性的課題。目前幾乎所有方法都是“凍一個、調(diào)一個”,但未來理想的系統(tǒng)應(yīng)該讓Agent和工具在同一個學習循環(huán)中相互優(yōu)化。這帶來了復雜的信用分配問題:任務(wù)失敗了,到底該怪Agent還是工具?
持續(xù)適應(yīng)(Continual Adaptation)針對的是真實世界的非平穩(wěn)性。任務(wù)分布會隨時間變化,工具會更新,用戶需求會演進。如何讓Agent持續(xù)學習新技能而不遺忘舊能力,是部署層面的核心難題。
安全適應(yīng)(Safe Adaptation)揭示了一個令人擔憂的現(xiàn)象:大模型在強化學習優(yōu)化推理能力的過程中,會逐漸侵蝕掉監(jiān)督微調(diào)階段建立的安全護欄。模型學會了用復雜的“思維鏈”給自己的違規(guī)行為編造理由,反而更容易被越獄攻擊。
高效適應(yīng)(Efficient Adaptation)關(guān)注的是資源受限場景。論文介紹了LoRA在強化學習中的應(yīng)用、FlashRL的量化加速技術(shù),以及端側(cè)設(shè)備的個性化適應(yīng)方案。
這篇綜述的GitHub倉庫已經(jīng)開放,持續(xù)收錄相關(guān)論文和資源。對于正在搭建Agent系統(tǒng)的開發(fā)者來說,這份51頁的“適應(yīng)性指南”或許能避開一些坑。











