在AI領域,一場悄無聲息的革命正在加速推進。北京時間7月18日凌晨,OpenAI再次震撼發布——ChatGPT Agent正式亮相。這一創新成果不僅預示著AI Agent競賽的賽道愈發擁擠,更意味著AI技術從信息提供邁向了行動執行的全新階段。
ChatGPT Agent,這一由OpenAI精心打造的智能體,能夠依據用戶指令自動規劃執行路徑,靈活調用多種工具,從數據抓取到表格生成,從行程規劃到酒店預訂,多環節任務一氣呵成。其能力之全面,令人矚目。
OpenAI的這一舉動,無疑給眾多AI Agent創業項目帶來了巨大壓力。四個月前,Manus等創業公司還在宣傳片中描繪著通用AI Agent的美好愿景,而今,ChatGPT Agent已將這些愿景變為了現實。OpenAI創始人山姆·阿爾特曼更是直言,這是他首次“真正感受到AGI(通用人工智能)”的魅力。
值得注意的是,OpenAI將ChatGPT Agent定位為一個模型,而非產品。與依賴上下文管理和工具鏈編排的系統不同,OpenAI通過訓練專用模型,實現了在單一系統中完成復雜流程的能力。這一創新之舉,無疑為AI Agent的發展開辟了新的道路。
然而,AI時代的創業者們卻面臨著前所未有的挑戰。技術的快速迭代,使得底層模型的更新往往就能顛覆整個垂直領域的創新產品。理想汽車創始人李想在朋友圈感慨,掌握最強基座模型的企業,如OpenAI,將留給垂直應用創業者的空間愈發有限。AI的本質是能力,能力強者將占據主導。
面對OpenAI的強勢來襲,Manus等創業公司并未退縮。OpenAI發布會剛結束,Manus便在社交媒體上轉發推文,歡迎OpenAI加入游戲。同時,Manus還放出了一系列與ChatGPT Agent的對比測試,宣稱要在正面較量中一較高下。
測試結果顯示,在數據整理、路線規劃、在線購物、財務分析、餐廳預訂等多個場景中,Manus的表現幾乎全面占優。其響應速度更快,任務完成度更高,生成的表格更整潔,圖示更豐富,PPT更成品化。這一表現,無疑給ChatGPT Agent帶來了不小的壓力。
盡管如此,ChatGPT Agent仍以其強大的底層模型能力贏得了業界的廣泛關注。在學術測試中,ChatGPT Agent的表現甚至領先于OpenAI o3和GPT 4o,達到行業最高水平。在《人類的最后考試》評估中,ChatGPT Agent取得了41.6%的新高;在DSBench測試中,其表現也大幅度領先于GPT-4o。
然而,ChatGPT Agent也并非完美無缺。部分用戶反饋指出,其任務完成度有待提高,生成速度較慢,部分復雜任務需要耗時20分鐘乃至更長時間才能完成。生成的文檔或PPT在美觀度上也有所欠缺。
針對這些問題,OpenAI的研究員們表示,他們正在不斷努力優化模型。同時,他們也建議用戶在使用ChatGPT Agent時,先讓其完成研究工作,再輸出PPT文件。這樣,用戶就可以在PowerPoint中套用自己喜歡的設計模板,進一步提升文檔的美觀度。
在兩種技術路線的較量中,初創公司們更傾向于應用創新,試圖為用戶呈現一個完成度更高且上手難度更低的Agent產品。而OpenAI則更強調底層模型能力的提高,通過端到端訓練的統一模型,實現更強大的智能體功能。
隨著ChatGPT Agent的正式推出,AI Agent正式進入巨頭博弈的時代。其對社會的影響將不亞于大模型爆發之初,AI搶奪人類工作的現實正在悄然上演。微軟、亞馬遜等科技巨頭已經開始裁員,AI Agent的應用正在快速普及。
然而,AI Agent的快速應用也引發了行業人士的擔憂。與過去大模型僅提供信息不同,AI Agent具備了從思考到行動的完整能力。這意味著用戶將自己的私人信息交給了一個“黑盒”,更容易受到攻擊。因此,如何在享受AI Agent帶來的便利的同時,保障個人隱私和安全,成為了亟待解決的問題。
OpenAI也意識到了這一風險。他們強調,ChatGPT Agent在執行所有重要操作前都會征得用戶同意,用戶始終擁有控制權。同時,他們還加入了包括主動監督和主動風險緩解在內的安全措施,以降低隱私和安全風險。