OpenAI近期推出了一項重大更新,其首席執行官奧特曼親自帶領團隊,在一場25分鐘的直播活動中揭曉了名為“ChatGPT Agent”的創新技術。這一統一智能體的問世,標志著ChatGPT在處理現實世界復雜任務能力上的飛躍。
ChatGPT Agent能夠響應諸如“檢查我的日歷并概述即將到來的客戶會議重點”,“規劃并購買為四人準備的日式早餐所需食材”,以及“分析三個競爭對手并制作演示文稿”等指令。它能夠智能地瀏覽網頁、篩選信息、在必要時提示安全登錄、執行代碼分析,甚至直接生成可編輯的PPT和Excel文件來總結分析結果。
奧特曼表示,ChatGPT Agent利用計算機執行復雜任務的能力,讓他個人感受到了通向通用人工智能(AGI)的重要一步。
目前,ChatGPT的專業版(Pro)、增強版(Plus)和團隊版(Team)用戶均可以訪問這一新功能。使用方式依舊簡便,只需在ChatGPT的原頁面中,通過“工具”下拉菜單選擇“Agent mode”即可開啟。
ChatGPT Agent融合了此前三大技術創新的精髓:Operator與網頁交互的能力、Deep Research整合信息的技巧,以及ChatGPT本身的對話智能。在“Agent mode”下,ChatGPT能夠直接調用用戶的計算機資源,包括智能瀏覽網頁、篩選結果、運行代碼、生成報告等。
為了直觀展示ChatGPT Agent的實力,OpenAI團隊模擬了一個真實場景:用戶上傳一張團隊吉祥物的圖片,ChatGPT隨即將其轉化為漫畫風格的貼紙,并訂購了500張送至指定地址。整個過程從搜索、創作到執行,一氣呵成。
團隊還展示了ChatGPT Agent制作PPT的能力。它能夠從Google云中提取數據,自動生成包含圖表的PPT。經過模型的自我審視和優化,最終生成的PPT圖表既專業又精美。
在多個評估測試中,ChatGPT Agent均刷新了業界基準。在網頁瀏覽和現實任務完成能力測試中,它展現了卓越的性能。在人類最后考試(HLE)中,ChatGPT Agent得分高達41.6%,采用并行策略后更是提升至44.4%。在最難的數學基準測試FrontierMath中,通過使用工具,它的準確率達到了27.4%,遠超之前的模型。在評估知識工作任務性能的基準測試中,ChatGPT Agent的表現與人類相當或更優,同時明顯優于其他模型。在Excel編輯能力的測試中,它的得分也遠高于Excel中的Copilot。
隨著OpenAI ChatGPT Agent的推出,AI Agent領域的競爭格局變得更加多元化。2025年被視為全球AI Agent技術爆發的元年,行業正從基礎大模型的競爭轉向智能體的實際應用。在通用領域,中國團隊開發的“Manus”已引起廣泛關注。在垂直領域,亞馬遜云科技也發布了企業級Agent部署平臺Amazon Bedrock AgentCore,為開發者提供了從概念驗證到生產部署的全方位支持。
如今,AI Agent市場已形成了“通用與垂直”、“端到端與多模型”、“C端工具與B端平臺”的三維競爭格局。OpenAI ChatGPT Agent的強勢加入,無疑將推動這一領域的進一步發展和創新。