近期,硅谷在“Agent 工具箱”領(lǐng)域動(dòng)作頻頻,OpenAI、Google、Anthropic 三大模型公司紛紛發(fā)力,引發(fā)行業(yè)高度關(guān)注。10 月 6 日,OpenAI 在開發(fā)者日上推出 AgentKit 等一系列工具,為開發(fā)者構(gòu)建獨(dú)立 AI 或 Agent 產(chǎn)品提供支持;兩天后,Google 發(fā)布 Gemini CLI(命令行交互)Extensions,完善其開發(fā)生態(tài);10 月 16 日,Claude 推出 Claude Skills,讓用戶無(wú)需編程,通過“文件夾系統(tǒng)”即可定義工作流。這些動(dòng)作背后,是模型升級(jí)后,如何用好新能力的迫切需求。
核心模型廠商之外,“Agent 工具箱”也成為硅谷創(chuàng)業(yè)的熱門領(lǐng)域。今年夏天,開源 AI 框架公司 LangChain 融資 1 億美元,躋身新獨(dú)角獸行列;語(yǔ)音模型提供商 ElevenLabs 賣員工老股,最新估值達(dá) 66 億美元;OpenAI 更是以 11 億美元全股收購(gòu) ABtest 和 AI 應(yīng)用評(píng)估(evals)工具公司,其創(chuàng)始人維賈耶·拉吉出任 OpenAI 應(yīng)用業(yè)務(wù)線 CTO。
為深入探討 Agent 工具鏈(Agentic Tooling)的發(fā)展趨勢(shì)和美國(guó)創(chuàng)業(yè)實(shí)踐,我們邀請(qǐng)了常駐硅谷的 AGI House 合伙人 Henry Yin 和 Naomi Xia 進(jìn)行交流。Henry Yin 畢業(yè)于清華姚班,后赴伯克利攻讀博士,期間退學(xué)創(chuàng)辦思碼逸(Merico),長(zhǎng)期關(guān)注 Agent 工具鏈與應(yīng)用層創(chuàng)新,目前正籌備社區(qū)型基金 MoE Capital,探索下一代 AI 創(chuàng)業(yè)與投資模式。Naomi Xia 畢業(yè)于沃頓商學(xué)院,曾任職于摩根大通 AI 投融資團(tuán)隊(duì),現(xiàn)負(fù)責(zé) AGI House 早期投資,已投資 20 多家公司,其中就包括 Composio 和 Livekit。
Henry Yin 梳理了 Agent 工具鏈領(lǐng)域的“6 次進(jìn)化”。他認(rèn)為,Agent 工具的發(fā)展始終圍繞模型能力的躍遷。ChatGPT 的發(fā)布催生了 LangChain 框架,Anthropic 提出的 MCP 協(xié)議為 Composio 轉(zhuǎn)型提供了契機(jī),GPT-4o 推出高級(jí)語(yǔ)音模式則讓 LiveKit 迎來(lái)爆發(fā)式增長(zhǎng)。隨著模型升級(jí)間隔越來(lái)越短,機(jī)會(huì)涌現(xiàn)的節(jié)奏也在加快。
在 Agent 工具鏈中,AgentKit 備受關(guān)注。Henry Yin 指出,此次 OpenAI 推出的 AgentKit 涵蓋了整個(gè) Agent 開發(fā)周期。構(gòu)建環(huán)節(jié),新推出的 Agent Builder 是一個(gè)可視化工具,通過拖拽就能快速搭建 Agent;前端部署方面,ChatKit 允許開發(fā)者在自己的應(yīng)用中快速嵌入類似 ChatGPT 的聊天界面,與 OpenAI 的模型實(shí)時(shí)交互;上線后的持續(xù)維護(hù)、優(yōu)化,OpenAI 提供了監(jiān)控、評(píng)估和改進(jìn)的一套工具,新增 datasets(數(shù)據(jù)集管理)、自動(dòng) prompt 優(yōu)化(自動(dòng)提示詞優(yōu)化)、Trace grading(痕跡分級(jí))、以及 reinforcement fine tuning(強(qiáng)化微調(diào))等功能。其中,Trace grading 備受關(guān)注,它通過寫 grading(評(píng)價(jià)函數(shù)),判斷用戶與 Agent 交互流程中哪些做得好、哪些不好,并給出標(biāo)簽或評(píng)分,評(píng)分可以手動(dòng)打,也可以讓 LLM 來(lái)做評(píng)審。
對(duì)于 Agent Builder,有人認(rèn)為其思路與 AGI 有分歧。大部分人認(rèn)同,最終的智能體應(yīng)該是高度自動(dòng)化、能執(zhí)行多步任務(wù)、持續(xù)使用工具的,這需要將人工手寫的流程吃到模型里,而 Agent Builder 是先畫流程圖。不過,Henry Yin 認(rèn)為,雖然對(duì)追求研究者來(lái)說,AgentKit 并不性感,但對(duì)大客戶來(lái)說,它安全、好理解、能落地,因此具有一定的市場(chǎng)競(jìng)爭(zhēng)力。
除了 AgentKit,Apps in ChatGPT 和 Apps SDK 也是 OpenAI 開發(fā)者日的重磅發(fā)布。ChatGPT 負(fù)責(zé)人 Nick Turley 表示,ChatGPT 有潛力變成個(gè)操作系統(tǒng)。Henry Yin 認(rèn)為,把 ChatGPT 當(dāng)做操作系統(tǒng)并非首次炒作,兩年前的 CustomGPTs 就曾有過類似嘗試,但最終多數(shù) GPTs 只是帶 logo 的一個(gè) prompt 模板,因?yàn)楫?dāng)時(shí)調(diào)用外部數(shù)據(jù)麻煩,也不能用第三方服務(wù)、存儲(chǔ)狀態(tài)、發(fā)送通知或運(yùn)行工作流。而此次有了 AgentKit 和 Apps SDK,ChatGPT 類似 iOS 的開發(fā) SDK,終于可以調(diào)用外部工具,還補(bǔ)上了 UI 組件,是一個(gè)真正的平臺(tái),也有了一套更完整的工具箱。更重要的是,ChatGPT 官方公布的周活有 8 億,開發(fā)者做出的好應(yīng)用能立刻觸達(dá)大量用戶,冷啟動(dòng)問題會(huì)小很多,同時(shí)還能獲得大企業(yè)的信任背書,進(jìn)入大型企業(yè)采購(gòu)流程。
在市場(chǎng)競(jìng)爭(zhēng)方面,2024 年 Anthropic 搶走了不少 OpenAI 的 to B 份額,此前 OpenAI 給外界印象也是在 to C 超級(jí)應(yīng)用上更激進(jìn)。但 Henry Yin 認(rèn)為,OpenAI 不會(huì)放棄 to B。一方面,ChatGPT 周活 8 億,已經(jīng)是“操作系統(tǒng)級(jí)”的流量入口;另一方面,Anthropic、Google 都在猛推企業(yè)側(cè)和開發(fā)者側(cè),OpenAI 面臨生態(tài)壓力。而且,B 端數(shù)據(jù)和使用偏好對(duì)提升模型也很重要,很多 C 端用戶也是在生產(chǎn)力場(chǎng)景里使用 ChatGPT,B 端數(shù)據(jù)的反饋也能反哺這塊。從團(tuán)隊(duì)變化也能看出 OpenAI 對(duì) to B 的重視,他們新成立了“The Future of Work”的團(tuán)隊(duì),專門加速 AI 在各種商業(yè)場(chǎng)景的落地,如客服、合同審核、數(shù)據(jù)分析、商業(yè)線索轉(zhuǎn)化等。
此次發(fā)布后,創(chuàng)業(yè)者既看到了機(jī)會(huì),也感受到了壓力。機(jī)會(huì)在于,新平臺(tái)把創(chuàng)業(yè)者和開發(fā)者和用戶拉得更近;壓力則來(lái)自兩個(gè)方面,一是數(shù)據(jù)與留存的不對(duì)稱,現(xiàn)在 app 的上下文與數(shù)據(jù)多托管在平臺(tái)方,初創(chuàng)團(tuán)隊(duì)拿到的只是有限的上下文調(diào)用,難以真正建立用戶關(guān)系、優(yōu)化留存;二是平臺(tái)自己下場(chǎng)做的可能性,像 OpenAI 掌握完整的數(shù)據(jù)和用戶對(duì)話記錄,平臺(tái)上那些看起來(lái)很有潛力的機(jī)會(huì),也有可能被 OpenAI 直接吃掉。不過,大家對(duì) Google 反而沒那么擔(dān)心,認(rèn)為 Google 做應(yīng)用的速度追不上初創(chuàng)公司,而 OpenAI 節(jié)奏快得多。
在 Agent 工具鏈領(lǐng)域,具體的發(fā)展脈絡(luò)也十分清晰。Henry Yin 認(rèn)為,Agent 工具的發(fā)展始終圍繞模型能力的躍遷,大致經(jīng)歷了六次主要升級(jí)。2022 年底,ChatGPT 和 GPT-3.5 發(fā)布,全球第一次直觀感受到 LLM 的力量,LangChain 等框架出現(xiàn),提供腳手架讓開發(fā)者可以更快構(gòu)建應(yīng)用;2023 年 6 月,OpenAI 首次在 API 里官方支持 function calling(工具使用),LLM 開始能按上下文需要調(diào)用外圍工具;2024 年 11 月,Anthropic 發(fā)布 MCP 協(xié)議,讓工具在不同模型間更易復(fù)用;2024 年 5 月,GPT-4o 的 Advanced Voice 模式推出,高質(zhì)量語(yǔ)音交互雛形出現(xiàn),帶火了實(shí)時(shí)音視頻傳輸需求,LiveKit 迎來(lái)爆發(fā)式增長(zhǎng);2024 年 Claude 3.5 Sonnet 的發(fā)布和迭代帶來(lái)了 Cursor 的成功,AI 寫代碼能力大幅增強(qiáng),對(duì)“安全執(zhí)行代碼”的沙盒環(huán)境需求暴漲;2024 年 10 月,Anthropic 率先發(fā)布 Computer use 模型,隨后 OpenAI 推出 Operator,Agent 終于能像人一樣用瀏覽器完成任務(wù)。
在工具調(diào)用方面,最早 OpenAI 在 2023 年 6 月推出 function calling,現(xiàn)在更主流的協(xié)議卻是 Anthropic 發(fā)起的 MCP。這是因?yàn)?Claude 在“怎么把 tool use 做強(qiáng)”上花了很多時(shí)間,過程中沉淀出 MCP。對(duì)于下一次進(jìn)化,Henry Yin 認(rèn)為很難預(yù)測(cè),但相對(duì)確定的是,所有大模型廠商都會(huì)繼續(xù)加注 Agent 能力,包括推理、工具使用和語(yǔ)音等方面,另外,多模態(tài)也會(huì)更深融合。
在第三方創(chuàng)業(yè)公司方面,也有很多值得關(guān)注的方向。Naomi Xia 投資的 Composio 就是其中之一。Composio 是 MCP 的集成商,能提供高質(zhì)量 MCP Server,不止能調(diào)工具,更能保證任務(wù)的可靠執(zhí)行。它分為平臺(tái)和偏 prosumer(消費(fèi)者 + 生產(chǎn)者)的產(chǎn)品 Rube 兩部分。平臺(tái)方面,開發(fā)者通過編程把平臺(tái)上的 MCP Server 接到自己的 Agent;Rube 最近增長(zhǎng)很快,因?yàn)樗鉀Q了在 Cursor 中只能同時(shí)調(diào)用 3 個(gè) MCP Server 的痛點(diǎn),提供了 metaMCP Server,可以根據(jù)任務(wù)自動(dòng)調(diào)用正確的 MCP Server。Composio 一開始想做“自動(dòng)生成集成代碼”的智能體,但代碼準(zhǔn)確度不夠,發(fā)現(xiàn)原因是模型調(diào)用工具的過程不穩(wěn)定,于是轉(zhuǎn)向搭建智能體的技能層,把通用工具封裝成可直接調(diào)用的技能。憑借高質(zhì)量技術(shù)演示和社區(qū)驅(qū)動(dòng),它迅速出圈,最終拿到光速創(chuàng)投(LSVP)領(lǐng)投的 A 輪投資,2024 年 6 月產(chǎn)品上線時(shí)已積累 ClickUp、Gleam 等早期客戶。
除了 Browser Use,語(yǔ)音也是智能體工具領(lǐng)域的重要方向。現(xiàn)在全球每天約 100 億次通話,很大一部分是商業(yè)通話,面向企業(yè)服務(wù)的 AI 機(jī)會(huì)很大,同時(shí)個(gè)人助理或情感陪伴領(lǐng)域的增長(zhǎng)也很快。LiveKit 成立于疫情期,一開始服務(wù)遠(yuǎn)程辦公需求,基于 WebRTC 的實(shí)時(shí)音視頻傳輸,與 AI 關(guān)系不大。GPT-4o 把 LiveKit 用作語(yǔ)音傳輸層后,它從底層往上豐富產(chǎn)品,現(xiàn)在用它的 SDK 能方便地搭建語(yǔ)音 Agent。目前,LiveKit 每天支撐約 2000 萬(wàn)次通話,一年前數(shù)據(jù)是 100 萬(wàn),年增 20 倍。企業(yè)層面,OpenAI、Character.AI 以及 Grok 的語(yǔ)音層都由 LiveKit 驅(qū)動(dòng),全美最大的 CRM 公司 Salesforce 馬上要把客服智能體部署在 LiveKit 平臺(tái);公共服務(wù)層面,LiveKit 可以支持美國(guó) 911 約 25% 的呼叫,通過直播現(xiàn)場(chǎng)讓接線員了解情況,還能轉(zhuǎn)接心肺復(fù)蘇的教練。
記憶也是 Agentic tooling 的重要方向。Henry Yin 介紹了四類記憶,包括情境記憶、流程記憶、存儲(chǔ)事實(shí)的知識(shí)記憶和角色記憶或人格記憶。其中,Letta 是這方面增速很快的一家公司,由兩位伯克利的博士畢業(yè)后創(chuàng)立,幫 Agent 開發(fā)者做“有狀態(tài)的智能體(State for Agent)”。它提出“睡眠時(shí)計(jì)算(Sleep-time Compute)”的概念,不是在推理時(shí)燒 token,而是在系統(tǒng)空閑時(shí)做整理,就像白天開了很多會(huì),晚上用睡覺時(shí)間回放處理,把信息沉淀成學(xué)習(xí)內(nèi)容和洞見。對(duì)于用戶是否愿意把數(shù)據(jù)給 Letta 的問題,Henry Yin 認(rèn)為不太會(huì)出現(xiàn)類似自動(dòng)駕駛初創(chuàng)公司優(yōu)化算法需要司機(jī)數(shù)據(jù),但車企出于競(jìng)爭(zhēng)和數(shù)據(jù)敏感性不愿給的情況,因?yàn)楝F(xiàn)在的 Agent 應(yīng)用市場(chǎng)更分散、更多樣,很多創(chuàng)業(yè)公司體量小,商業(yè)話語(yǔ)權(quán)不強(qiáng)。
在評(píng)估方面,雖然幾乎所有人都認(rèn)為評(píng)估很重要,但大多數(shù)公司不愿做,因?yàn)檫@件事很難做。一是成本高,評(píng)估數(shù)據(jù)很多需要人工標(biāo)注,任務(wù)越復(fù)雜,成本越高;二是策劃與共識(shí),團(tuán)隊(duì)常對(duì)“用什么數(shù)據(jù)、怎么構(gòu)建數(shù)據(jù)集”沒有一致意見。不過,標(biāo)準(zhǔn)化的第三方評(píng)估工具也有創(chuàng)業(yè)機(jī)會(huì)。OpenAI 以 11 億美元收購(gòu)了 Statsig,做的是 AB 測(cè)試、功能逐步發(fā)布和數(shù)據(jù)指標(biāo)閉環(huán),也就是評(píng)估模型效果,按節(jié)奏擴(kuò)大流量。做業(yè)務(wù)的公司自己也會(huì)加入評(píng)估組件,但專門做評(píng)估的公司仍有其存在的價(jià)值。
從商業(yè)層面看,Agent 工具(Agentic tooling)的市場(chǎng)規(guī)模潛力巨大。全球軟件市場(chǎng)年銷售約 6500 億美元,開發(fā)者工具(DevTools)規(guī)模約 200 到 300 億美元。但這波 AI Agent 改變了游戲規(guī)則,紅杉曾預(yù)測(cè),AI 會(huì)把軟件市場(chǎng)的天花板從六千多億推到約 10 萬(wàn)億美元,因?yàn)樗芮腥敕?wù)業(yè),把原來(lái)靠人力的服務(wù)轉(zhuǎn)成軟件。如果這個(gè)判斷成立,那么為 AI Agent 提供“武器裝備”的 Agent 工具市場(chǎng)規(guī)模也會(huì)隨之躍升,長(zhǎng)期規(guī)模可能達(dá)到 2000 億到 5000 億美元。而且,這一波 AI 不是瓜分存量,而是在創(chuàng)造增量。在這個(gè)市場(chǎng)中,已經(jīng)出現(xiàn)了一些有潛力的公司,如做身份認(rèn)證的 Okta 最近一年收入大概在 20 億美元,云通信巨頭 Twilio 高峰期年收入大概在 40 億美元,而面向 Agent 的觀測(cè)平臺(tái)、實(shí)時(shí)通信基礎(chǔ)設(shè)施、Agent 模塊和現(xiàn)有工作流的集成等領(lǐng)域,都有可能誕生年收入 100 億美元的大公司,關(guān)鍵在于是否能形成網(wǎng)絡(luò)效應(yīng)和數(shù)據(jù)壁壘。











