滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

為什么Agent總是Demo猛如龍實戰(zhàn)一條蟲？

時間：2025-12-22 23:04:37 來源：量子位編輯：快訊 IP：北京 發(fā)表評論無障礙通道

為什么Agent在演示時無所不能，到了實際場景卻頻頻拉胯？

一篇長達51頁的論文研究了自ChatGPT以來的主要智能體，給出參考框架：適應(yīng)性是其中關(guān)鍵。

智能體定義上不是只會被動回答的AI，而是能自己規(guī)劃、用工具（比如搜索引擎、代碼編譯器、數(shù)據(jù)庫）、記東西，一步步完成復雜任務(wù)。

當遇到新任務(wù)、新環(huán)境時，不需要重造一個新的智能體，而是通過 “微調(diào)自己” 或 “優(yōu)化工具”，快速適配需求（比如從寫普通代碼適配到寫垂直行業(yè)代碼）。

這篇論文作者陣容豪華，來自UIUC、斯坦福、普林斯頓、哈佛、UC伯克利等12所高校的三十多位研究者聯(lián)手，由UIUC的韓家煒教授團隊領(lǐng)銜，共同一作Pengcheng Jiang，Jiacheng Lin，Zhiyi Shi為UIUC博士生。

Agent“適應(yīng)性”的四個象限

團隊認為，當前Agent系統(tǒng)的核心瓶頸在于適應(yīng)性：模型如何根據(jù)反饋信號調(diào)整自身行為。

為此，他們提出了一個2×2的分類框架，把現(xiàn)有的適應(yīng)方法切成了四大范式。

第一個維度是“優(yōu)化誰”：是優(yōu)化Agent本身（Agent Adaptation），還是它調(diào)用的工具（Tool Adaptation）。

第二個維度是“信號從哪來”：是來自工具執(zhí)行的結(jié)果，還是來自Agent最終輸出的評估。

據(jù)此分成四類：

A1范式讓Agent根據(jù)工具執(zhí)行的反饋來學習，比如代碼能不能跑通、檢索結(jié)果準不準。

A2范式則是用Agent的最終答案作為優(yōu)化信號，典型代表就是DeepSeek-R1這類用強化學習訓練推理能力的工作。

T1范式是即插即用：工具獨立訓練好，Agent直接調(diào)用，比如SAM、CLIP這些預(yù)訓練模型。

T2范式讓工具反過來根據(jù)Agent的輸出來優(yōu)化自己，形成一種共生適應(yīng)的關(guān)系。

這樣分類之后，有兩個好處：

開發(fā)遇到問題時，不用盲目試錯。想讓AI更擅長工具的使用細”，就選 A1；想讓整體推理更靠譜，就選A2；想讓工具通用好用，就選T1；想讓工具適配特定AI，就選 T2。

另外也明確了trade-off。改AI（A1/A2）靈活但成本更高，需要重新訓練模型。改工具（T1/T2）省錢，但受限于 AI 本身的能力。

論文中還有一個關(guān)鍵發(fā)現(xiàn)：T2范式的數(shù)據(jù)效率遠超A2范式。

以檢索增強生成任務(wù)為例，Search-R1采用A2范式端到端訓練Agent，需要約17萬條訓練樣本。

而采用T2范式，只訓練一個輕量級的搜索子智能體來服務(wù)凍結(jié)的主模型，僅用2400條樣本就達到了相當?shù)男Ч?shù)據(jù)量減少了約70倍，訓練速度快了33倍。

更值得注意的是泛化能力的差異。在醫(yī)學問答這種專業(yè)領(lǐng)域測試中，T2訓練的智能體達到了76.6%的準確率，而A2訓練的Search-R1只有71.8%。

論文分析認為，這是因為A2范式要求模型同時學習領(lǐng)域知識、工具使用技能和任務(wù)推理三件事，優(yōu)化空間過于復雜；而T2范式下，凍結(jié)的大模型已經(jīng)具備知識和推理能力，小模型只需要學習“怎么搜”這一項程序性技能。

四大前沿方向指路

論文最后指出了Agent適應(yīng)性研究的四個前沿方向。

協(xié)同適應(yīng)（Co-Adaptation）是最具挑戰(zhàn)性的課題。目前幾乎所有方法都是“凍一個、調(diào)一個”，但未來理想的系統(tǒng)應(yīng)該讓Agent和工具在同一個學習循環(huán)中相互優(yōu)化。這帶來了復雜的信用分配問題：任務(wù)失敗了，到底該怪Agent還是工具？

持續(xù)適應(yīng)（Continual Adaptation）針對的是真實世界的非平穩(wěn)性。任務(wù)分布會隨時間變化，工具會更新，用戶需求會演進。如何讓Agent持續(xù)學習新技能而不遺忘舊能力，是部署層面的核心難題。

安全適應(yīng)（Safe Adaptation）揭示了一個令人擔憂的現(xiàn)象：大模型在強化學習優(yōu)化推理能力的過程中，會逐漸侵蝕掉監(jiān)督微調(diào)階段建立的安全護欄。模型學會了用復雜的“思維鏈”給自己的違規(guī)行為編造理由，反而更容易被越獄攻擊。

高效適應(yīng)（Efficient Adaptation）關(guān)注的是資源受限場景。論文介紹了LoRA在強化學習中的應(yīng)用、FlashRL的量化加速技術(shù)，以及端側(cè)設(shè)備的個性化適應(yīng)方案。

這篇綜述的GitHub倉庫已經(jīng)開放，持續(xù)收錄相關(guān)論文和資源。對于正在搭建Agent系統(tǒng)的開發(fā)者來說，這份51頁的“適應(yīng)性指南”或許能避開一些坑。

更多>同類資訊

特斯拉人形機器人“上崗”賣爆米花：裝袋、遞送一氣呵成

12-22

CES 2026下月6日開始現(xiàn)代汽車將展示下一代人形機器人

12-22

華為nova 15系列領(lǐng)銜發(fā)布，全場景新品矩陣再擴容

12-22

Fortinet 2025年終媒體會：共赴AI驅(qū)動網(wǎng)絡(luò)安全新時代

12-22

華為鴻蒙智家新品發(fā)布：小藝管家升級，智裝套餐9999元開啟智慧美居新體驗

12-22

中關(guān)村新地標AGI Bar：AI泡沫里，藏著新時代的江湖與夢想

12-22

科技賦能豪華新體驗，尊界S800開啟中國高端汽車破局新篇章

12-22

市場反彈ETF活躍：標普生物科技領(lǐng)漲，半導體設(shè)備與多概念股齊飛

12-22

優(yōu)德牛留栓：科技賦能大健康，以新質(zhì)生產(chǎn)力解鎖產(chǎn)業(yè)升級新路徑

12-22

17.88萬起！紅旗HS6 PHEV來襲，續(xù)航空間智能安全全在線

12-22

理想MEGA：打破純電魔咒，以硬實力鑄就高端MPV保值新標桿

12-22

央視聚焦海爾卡奧斯：賦能中小企業(yè)數(shù)智躍升激活制造業(yè)新動能

12月19日，央視《經(jīng)濟半小時》十分鐘專題報道，點贊海爾卡奧斯助力中小企業(yè)數(shù)質(zhì)升級的創(chuàng)新實踐，賦能浙江金華聚杰電器（以下簡稱聚杰電器）搭建工業(yè)互聯(lián)網(wǎng)平臺，使其從一家主營業(yè)務(wù)遭遇發(fā)展瓶頸到增收2億多的開放平臺型…

12-22

?賦能AI智能體！Anthropic正式發(fā)布Claude“技能”開放標準

12-22

北京人形機器人推出國內(nèi)首個符合國標的 VLA 大模型 XR-1

12-22

點擊查看更多 +

全站最新

2026手機市場新趨勢：功能趨同下，“情緒價值”成破局關(guān)鍵

線上產(chǎn)品控價難題如何破？四大策略構(gòu)建品牌價格防護網(wǎng)

物理AI浪潮來襲：中國企業(yè)發(fā)力，五一視界領(lǐng)跑開啟新征程

東風攜手華為乾崑發(fā)力奕境品牌首臺工裝樣車下線 2026年推全尺寸SUV

賓利首款純電SUV新曝光！800V快充加持，大燈設(shè)計新潮，或明年亮相

17.88萬起！紅旗HS6 PHEV來襲，續(xù)航空間智能安全全在線

熱門內(nèi)容

本欄最新

17.88萬起！紅旗HS6 PHEV來襲，續(xù)航空間智能安全全在線

央視聚焦海爾卡奧斯：賦能中小企業(yè)數(shù)智躍升激活制造業(yè)新動能

LOVOT上海ifc商場店啟幕，以溫暖科技解鎖高端陪伴新體驗

AI陪伴新體驗：LOVOT上海ifc商場店啟幕共赴溫暖科技之約

10萬級純電SUV新選擇！歐拉5全配置解析，哪款最適合你？

福特智趣烈馬入局：越野家用融合，能否在激烈市場闖出一片天？

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

為什么Agent總是Demo猛如龍實戰(zhàn)一條蟲？

日本精品一区二区三区高清久久