在萬眾矚目中,OpenAI終于揭開了其智能體(Agent)的神秘面紗。這一消息由OpenAI的首席執行官Sam Altman親自宣布,伴隨著Agent模式的正式亮相,ChatGPT的通用型智能體版本也隨之問世。
盡管OpenAI Agent的發布未能重現ChatGPT初次亮相時的那般轟動,但這一遲來的產品依舊承載著眾多期待。早在年初,市場上便涌現了諸如Manus、Minimax、Kimi等類似形態的產品,使得OpenAI在某種程度上失去了先發制人的優勢。
然而,OpenAI作為技術領域的佼佼者,其Agent的發布依舊不容小覷。在直播演示中,這款Agent所展現出的能力令人眼前一亮。它能夠自主訪問網頁、調用終端、自動下單,并能執行從旅行規劃、PPT制作到圖像生成與在線購物的整套流程。這一表現,無疑為AI的應用場景開辟了更為廣闊的空間。
據OpenAI介紹,ChatGPT Agent即日起向Pro、Plus和Team版用戶開放,Enterprise和Education版用戶則將于7月獲得使用權限。不同版本的用戶每月將享有不同次數的使用權限,以滿足不同層級的需求。
為了實現從“Chat”到“Agent”的跨越,OpenAI結合了Operator(視覺層交互代理)和Deep Research(多步驟網頁推理)兩項核心研究成果。Operator如同Agent的“手腳”,負責執行具體操作;而Deep Research則如同“大腦”,負責任務的拆解、思考和決策。這一組合,使得Agent能夠高效地完成復雜任務。
為了支撐Agent的運作,三大模塊工具的支持不可或缺:文本瀏覽器用于處理密集型網頁閱讀任務,提取關鍵信息;可視化瀏覽器則實現在圖形界面中的操作,如鼠標點擊、輸入、截圖等;終端工具則用于運行代碼、生成文件、調用API等,與其他系統集成。
這款Agent不僅能執行任務,還能評估執行效果,并在每一步中動態選擇最優路徑。用戶可以隨時插話調整指令,或臨時接管任務進程,使得人與AI的協作更加靈活高效。
那么,Agent與ChatGPT究竟有何不同?簡而言之,Agent能夠完成任務,而ChatGPT則擅長對話。Agent所完成的任務更為復雜、高維,需要調動更多的工具和資源。例如,在OpenAI的演示中,Agent能夠根據用戶提供的網頁信息,挑選適合參加婚禮的禮服和禮物,這一過程涉及信息的提取、篩選、比較等多個環節。
制作PPT也是Agent的強項之一。在演示中,Agent從Google云中提取分析評估數據,并自動制作成PPT,通過圖表展示結果。這一過程不僅高效,而且生成的PPT在視覺上也更加流暢和美觀。
盡管OpenAI在AI領域具有舉足輕重的地位,但其在Agent產品的發布上卻略顯遲緩。今年3月,Manus便推出了通用Agent產品,并在市場上引發了廣泛關注。隨后,MiniMax、Kimi等也相繼發布了類似產品,使得OpenAI在Agent領域的競爭壓力驟增。
除了時間上的壓力,OpenAI還面臨著生態競爭和成本競爭的雙重挑戰。近年來,越來越多的競品開始涌入AI市場,其中不乏一些具有成本優勢的產品。例如Deepseek的訓練成本僅為OpenAI的二十分之一,但性能表現卻相當接近。這使得OpenAI在商業化方面面臨不小的壓力。
然而,盡管面臨諸多挑戰,但OpenAI在AI領域的領先地位依舊難以撼動。其Agent產品的發布,無疑為AI的應用場景注入了新的活力。隨著AI技術的不斷發展和完善,我們有理由相信,Agent將在未來發揮更加重要的作用,為人類的生活和工作帶來更多便利和驚喜。