作者 | 黃小藝郵箱 |huangxiaoyi@pingwest.com
7月18日凌晨,OpenAI發布了ChatGPT Agent,這是繼1月份推出operator,2月份推出deep research之后,OpenAI在Agent化道路上又一關鍵舉動。
當下,一個有趣的現象出現了:AI Agent領域正悄然分化為兩大流派。一方是以OpenAI、Claude為代表的“基座派”,正在將Agent能力融入其底層模型;另一方則是“應用派”,強調自己在具體的應用場景和靈活的工具調用上的設計規劃。
3月,Manus的橫空出世,便已點燃了通用Agent的第一波市場狂潮,隨后,Genspark、Flowith、Fellou等一眾新銳玩家紛紛從不同應用場景切入,迅速在Agent賽道上形成了各自的陣營。
就在OpenAI發布ChatGPT Agent后不久,Genspark便在社交平臺X上公開“叫板”,直言視頻中演示的ChatGPT Agent能力“表現不夠出色”。Manus也貼臉開大,對比了自己和OpenAI展示的案例的結果。
我們也想對比一下這些產品在ChatGPT Agent展示的一些案例上究竟表現有何不同。
1
你是一個成熟的Agent了,你該自己報道Agent的新聞了
首先,今天的AI Agent產品這么熱鬧,我們覺得它們也都是成熟的Agent了,應該來自己報道其他Agent的新聞了。
于是我們讓幾個備受關注的AI Agent產品來報道此次ChatGPT Agent的發布。我們并沒有選擇只是給一個很簡單Prompt的方式,而是用類似深度報告的方式來要求它們,最終產出一個有些設計要素在的one pager。
結果如下。
Manus:
有意思的地方是,Manus的Agent自己分析之后,并沒有像官方X賬號那樣“自信”,給了OpenAI更高的分數。
Genspark:
生成了一個更復雜的報告。這個報告里對OpenAI ChatGPT的信息捕捉更全。
并輸出了一份非常詳細的對比。
同樣,與官方X的“自信”也不同,Genspark的Agent也對OpenAI的水平表達了高度認可。
Flowith:
Flowith算是對我們比較長的Prompt做了充分理解后,抓住了要做一個one pager這個重點,這讓它的結果看起來設計感也最強,交出了一個格式上更好看的one pager。
1
比一比:從規劃到執行的“最后一公里”
在報道完ChatGPT Agent后,我們讓這些AI Agent也拿OpenAI視頻展示的案例練了練手。互相比較一下。
OpenAI視頻中提到了四個案例,主要是行程策劃、圖像設計類、資訊分析類,這也是自3月份Manus推出之后比較常見的場景。
我們先找了其中一個,婚禮規劃的場景,把視頻中展示的Prompt提交給了Manus、Genspark、Flowith、Fellou等,看看直接對比。
Manus:
https://manus.im/share/iWutNt1yTVXu8ZUTuz6YVQ?replay=1
Manus輸出了一個長文本頁面,沒有給到具體購買鏈接等涉及到下一步行動的結果,屬于婚禮參加指南和建議。
特別是著裝要求上,沒有具體的圖片和款式。
Flowith:
同樣給出了一份詳細的婚禮參與指南,無法進行到下一步加購等動作,更關鍵的是,因為單開了一條任務線來挑選參加婚禮的服飾,該任務線出現bug,最終沒能輸出服飾結果。
Fellou:
Fellou居然為這個任務一口氣跑了1 小時 14 分鐘。這是一個很有意思的不同,OpenAI此次發布后,它的研究員也提到,應該有一個榜單來比較AI Agent一次任務能夠跑的時長。
當然,這個時長和最終效果之間的關系也需要進一步查看。但Fellou這個操作還是給用戶帶來某種微妙的“靠譜”感。
這個過程它非常認真的單開了很多瀏覽器,比較行程、路線、酒店事件和日期。
最終它把信息用一種經過簡單設計的格式,提供給用戶。
但是在具體推薦上,同樣無法直接購買,沒有具體鏈接,只能輸出報告,更像是一個搜集信息的AI瀏覽器。
https://chat.fellou.ai/report/0d853b10-fcd0-4c22-a1f2-696556c8f277
第二個我們選了“做貼紙”的場景。
貼紙的設計在近三個月來各類Agent測試中算是非常簡單的了,而且,很多產品,例如Genspark的任務,本身也是調取的GPT的生圖能力。
不過同樣的,和OpenAI展示的相比,多個產品在訂購環節,因為沒有調用能力,無法完成具體操作。
比如Genspark會提示:很抱歉,我無法直接為您完成在線訂購,因為這需要您的個人信息、付款方式和賬戶驗證。不過我可以為您提供詳細的訂購指導,讓整個過程變得超級簡單!
Flowith同樣只能進行訂購指引。
在這個任務中,Manus在流程中顯示完成了購物車的添加,也是除了OpenAI以外唯一一個進行到這一步的Agent。
可以看到,今天的AI Agent依然是在一個“混沌期”,它能做到的事情,在不停讓我們驚嘆,而同時它也依然是不穩定的,哪怕OpenAI,今天發布的ChatGPT Agent更像是一個占位動作。但當我們把AI Agent視作一個潛力巨大,價值巨大的方向,這些新的重要玩家的加入和更激烈的競爭,都是好事——它最終會推動一個能穩定地解決人類面對的復雜任務的Agent更早出現在我們的生活里。
點個愛心,再走 吧