剛剛,OpenAI 發布新功能 ChatGPT Agent。
這項新功能的核心是統一的代理系統,一個能夠代替用戶完成多項復雜任務的綜合 AI 代理工具。
ChatGPT Agent 的強大之處在于它整合了 OpenAI 此前推出的多個 AI 工具的能力。它結合了 Operator 與網站的交互能力、Deep Research 的信息整合能力,以及 ChatGPT 的智能和對話流暢性。
ChatGPT Agent 功能運行在虛擬機上。即使使用多種工具,該虛擬機也能保留任務所需的上下文。它可以選擇使用文本瀏覽器或可視化瀏覽器打開頁面,從網絡下載文件,通過在終端中運行命令進行操作,然后在可視化瀏覽器中查看輸出。
ChatGPT Agent 具備推理能力,能夠自動搜索網頁,瀏覽用戶的日歷,生成可編輯的 PPT,運行代碼,甚至可以通過連接 Gmail 和 GitHub 等應用程序來查找與用戶提示相關的信息。
更重要的是,ChatGPT Agent 擁有訪問終端(Terminal)的能力,可以調用 API 完成訪問特定應用程序、生成圖片等任務。
OpenAI 的產品負責人亞什·庫馬爾(Yash Kumar)和研究負責人艾莎·富爾福德(Isa Fulford)在接受采訪時表示,這個工具由一個專門為此產品開發的新模型驅動。該模型通過強化學習技術進行訓練,能夠處理需要多種工具配合的復雜任務。
從今天起,ChatGPT Pro、Plus 和 Team 計劃的訂閱者將可以使用 ChatGPT Agent。用戶可以在 ChatGPT 的工具下拉菜單中選擇"agent mode"或輸入"/agent"來訪問該工具。Pro 用戶每月可發送 400 條消息,其他付費用戶每月可發送 40 條消息。
OpenAI 表示,將在今年夏天晚些時候為 Enterprise 和 Education 用戶提供此功能。
OpenAI 在直播中展示了它如何幫助用戶執行一系列與參加婚禮有關的任務,包括挑選合適的衣服、挑選 500 美元以下的禮物、查找合適的酒店等等。
挑選合適的衣服,還可以看到 Agent 的思考過程:
Agent 還可以訪問谷歌網盤:
調用終端寫代碼:
生成 PPT:
在 Agent 工作過程中,用戶還可以打斷它并添加新的要求,就像與人類助手交互一樣。
為了開發這個新工具,OpenAI 將 Operator 和 Deep Research 背后的團隊合并為一個統一團隊。OpenAI 透露,這個新團隊由 20 到 35 名產品和研究人員組成。
根據 OpenAI 提供的基準測試數據,該工具在多項評估中展現出了先進的性能。
在"人類最后考試"(Humanity's Last Exam)這個困難測試中,ChatGPT Agent 獲得了 41.6% 的分數(pass@1)。這個測試包含數千個涵蓋一百多個學科的問題,而 ChatGPT Agent 的表現大約是 OpenAI 的 o3 和 o4-mini 模型得分的兩倍。
這個分數雖不及 xAI 剛推出的 Grok 4(Heavy 模式下 44.4%),但差距也只有不到 3%。
在被認為是最困難的數學基準測試 FrontierMath 中,當 ChatGPT Agent 可以訪問工具(如用于代碼執行的終端)時,它獲得了 27.4% 的分數(Tier 1-3)。
相比之下,此前最先進的 o4-mini 模型僅獲得 19.3% 的分數,Gemini Pro 2.5 僅有 11%。這種性能提升表明,得益于能更好地使用工具,ChatGPT Agent 在處理復雜數學問題方面有了質的飛躍。
在內部測試的實際應用場景中,ChatGPT Agent 展現出了驚人的實用性。
富爾福德表示,她特別喜歡用它來網購,因為 Deep Research 和 Operator 技術的結合比單獨使用 Operator 更好、更全面。庫馬爾則開始使用 ChatGPT Agent 來自動化生活中的小事情,比如自動申請 OpenAI 的辦公室停車位,避免到了公司才想起沒有申請停車位。
雖然 ChatGPT Agent 功能強大,但在使用過程中也存在一些需要注意的地方。直播演示顯示,該工具的運行速度較慢。OpenAI 對此表示,團隊更專注于“優化困難任務”,在理想場景下,用戶不需要坐著觀看或監督 ChatGPT Agent 工作。
OpenAI 還使用以復雜的現實任務為模型的基準測試對 Agent 進行了評估。在一個旨在評估模型在“復雜且具有經濟價值的知識工作任務”表現的內部基準測試中,在大約一半的情況下,Agent 的表現與人類相當或更好,同時明顯優于 o3 和 o4-mini。
“即使需要 15 分鐘、半小時,與你自己完成這些任務所需的時間相比,這仍然是相當大的加速?!备粻柛5卵a充道,“我們更專注于低延遲用例。這是那種你可以在后臺啟動然后回來查看結果的工具?!?/p>
換言之,它不是為了實時交互而設計的,而是為了處理那些需要時間但用戶不想親自完成的復雜任務。
考慮到 ChatGPT Agent 增強的能力可能在惡意使用者手中變得更加危險,OpenAI 在開發過程中特別重視安全性。在 ChatGPT Agent 執行任何“不可逆”操作之前,如發送電子郵件或進行預訂,它會首先請求用戶許可。
由于該工具背后的模型具有增強的能力,OpenAI 已經激活了為“高級生物和化學能力”創建的保護措施,盡管公司表示它沒有“直接證據表明該模型可以有意義地幫助新手創造嚴重的生物或化學武器傷害”。今年 5 月,Anthropic 在發布其 Claude 模型 Opus 4 時也激活了類似的保護措施。
同時,該工具暫不支持有關金融交易的操作,并且還有一個名為 Watch Mode 的額外保護功能。當用戶導航到特定類別的網頁(如金融網站)時,他們不能離開 ChatGPT Agent 正在運行的標簽頁,否則工具將停止工作。
最后,OpenAI 也提醒稱,目前生成的 PPT 可能會略顯簡陋,Agent 展示的 PPT 偶爾會與用戶下載的 PPT 出現差異。他們已經開始下一次迭代,以生成更精致、更復雜的輸出,并具有更廣泛的功能和改進的格式。
參考資料:
https://openai.com/index/introducing-chatgpt-agent/
https://epoch.ai/frontiermath