在人工智能領域,Agent概念正逐漸成為行業共識,OpenAI自然也不甘落后。近日,在一次深夜直播中,OpenAI的首席執行官Sam Altman攜手四位研究員,共同揭曉了他們的最新力作——ChatGPT Agent,一款旨在重塑AI交互體驗的通用型AIAgent。
盡管市場上已有諸如Manus、Lovart和Flowith等產品珠玉在前,ChatGPT Agent的亮相并未帶來過于驚艷的視覺沖擊,但其背后的意義卻遠超功能本身。ChatGPT Agent的革命性在于其獨特的技術架構:它能夠自主從內置的工具箱中挑選合適的代理技能,并利用自己的計算能力執行任務,用戶得以實時目睹AI在虛擬空間中的每一步操作。
盡管這種交互界面與Manus等產品存在相似之處,但兩者的底層邏輯卻大相徑庭。Manus通過調用多個底層模型實現功能整合,更像是“外部拼接”,而ChatGPT Agent則是將Agent的能力深度融入模型之中,展現出了端到端通用Agent的雛形。這一轉變,標志著AI技術向更加一體化、智能化的方向邁進。
據OpenAI透露,為了打造ChatGPT Agent,他們特別整合了Operator和Deep Research團隊,形成了一個20至35人的精英團隊。這款新推出的代理模型,與OpenAI的o3系列同屬一脈,采用了端到端的訓練策略。它是一個專為代理任務而生的統一模型,而非多個模型的簡單堆砌。
OpenAI發布的對比數據顯示,ChatGPT Agent的訓練過程主要依賴強化學習,與Grok4withtool的路徑頗為相似。經過再訓練,Agent不僅繼承了Deep Research的深入研究和高質量報告生成能力,還吸納了Operator通過遠程可視化瀏覽器環境執行任務的能力,以及訪問終端工具和外部數據源的能力。
更為貼心的是,ChatGPT Agent在完成復雜任務后,還能為用戶提供可下載的PPT或文檔,極大地提升了工作效率。這一新舉措,無疑對Manus等競爭對手構成了嚴峻挑戰,尤其在定價策略上,GPT的Plus套餐僅需每月20美元即可享受ChatGPT Agent服務,而Manus的基礎計劃則為每月19美元。
ChatGPT Agent的核心在于其統一的代理系統,該系統整合并拓展了OpenAI早期研究項目“Operator”和“Deep Research”的能力,使得ChatGPT Agent能夠在對話中無縫切換推理與思考、執行具體動作兩種模式。它運行在一個特設的虛擬計算機環境中,該環境沙盒化設計確保了操作的安全性,并能保存任務上下文,即使用戶中途干預,也能從斷點繼續。
為了應對復雜工作流程,ChatGPT Agent配備了四種智能工具,并能根據任務需求智能選擇最合適的工具。可視化瀏覽器用于與圖形用戶界面交互,文本瀏覽器則專注于高效推理和處理大量文本,終端允許運行代碼、處理文件,而API訪問則能直接調用外部應用數據。
ChatGPT Agent由一個專門為其設計的新模型驅動,該模型通過強化學習,在需要運用多種工具的復雜任務上進行了針對性訓練,學會了在不同工具間流暢切換并協同工作。它能夠接受自然語言指令,如“分析我的日歷,并根據新聞簡報準備即將到來的客戶會議”,并自主規劃執行一系列操作,最終生成可編輯的幻燈片或電子表格等成果。
在交互性方面,ChatGPT Agent能在必要時主動詢問更多細節以完成任務,用戶可隨時中斷、重定向任務或接管瀏覽器控制權。安全性是其設計的核心,執行關鍵操作前會明確請求用戶許可,并禁止執行高風險任務,如金融轉賬或提供法律建議。同時,它還內置了針對惡意攻擊的防護措施。
在多項基準測試中,ChatGPT Agent的表現同樣搶眼。在最難的HLE測試中,其準確率達到了41.6%(使用工具),高于Grok4的41.0%。在測量廣域知識與專家級提問的Humanity’s Last Exam上,單次作答準確率為41.6%,采用并行推理后提升至44.4%。在極難的FrontierMath數學基準上,借助終端運行代碼后準確率提升至27.4%。在真實知識工作任務的內部評測中,ChatGPT Agent在約半數案例中與人類表現持平或更佳。在DSBench數據科學任務上,其分析與建模準確率分別達到89.9%和85.5%,遠超人類平均水平。
ChatGPT Agent在電子表格編輯能力上也領先一籌,在SpreadsheetBench中取得45.5%的分數,遠超Copilot in Excel的20%。在BrowseComp、WebArena等瀏覽評測中,也刷新了行業記錄。
盡管功能強大,但OpenAI并未忽視潛在風險。在發布會后,Sam Altman立即發布長文,強調ChatGPT Agent處理復雜任務的能力的同時,也特別提醒了產品的風險。他指出,不法分子可能會試圖誘導用戶的AI代理提供私人信息或采取不當行動,方式難以預測。為此,OpenAI采取了一系列嚴格的安全措施,包括關鍵動作前用戶授權、高風險任務監督模式、拒絕高風險指令等。
盡管ChatGPT Agent在“模型即Agent”的道路上邁出了堅實的一步,但競爭依然激烈。如Claude等模型在coding agent能力上表現出色,而新上線的Kimi K2則采用開源架構,定位為Agentic Intelligence,價格僅為Claude的六分之一左右,上線后迅速獲得市場青睞。
面對自家產品的演示,Sam Altman不禁感慨:“我仿佛看到了AGI的曙光。”然而,關于GPT-5的期待聲仍不絕于耳。