近期,OpenAI在人工智能領(lǐng)域邁出了重要一步,推出了名為Operator的AI智能體,這款創(chuàng)新產(chǎn)品能夠模擬人類操作網(wǎng)頁瀏覽器的行為,為用戶帶來前所未有的便捷體驗(yàn)。
Operator的智能表現(xiàn)令人印象深刻。在OpenAI的演示中,它能夠精準(zhǔn)地接收并執(zhí)行各種指令,自主地完成打字、點(diǎn)擊、滾動(dòng)等一系列復(fù)雜的網(wǎng)頁交互任務(wù)。不僅如此,Operator還能輕松應(yīng)對(duì)在線表單填寫、網(wǎng)絡(luò)購物、表情包制作等日常操作,甚至能夠處理繁瑣的重復(fù)性瀏覽器任務(wù),極大地提升了工作效率。
Operator的推出受到了廣泛關(guān)注。據(jù)OpenAI透露,從1月23日開始,美國的ChatGPT Pro用戶已經(jīng)能夠體驗(yàn)到Operator的“預(yù)覽版”。未來,這款智能體將逐步拓展至更多區(qū)域的Pro用戶,并在幾個(gè)月后向ChatGPT Plus用戶開放。
Operator的強(qiáng)大功能得益于其背后的技術(shù)支持。據(jù)OpenAI官網(wǎng)介紹,Operator由全新的CUA(Computer-Using Agent)模型驅(qū)動(dòng),這一模型結(jié)合了GPT-4o的視覺能力,并通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了高級(jí)推理功能。這使得Operator能夠“看見”網(wǎng)頁內(nèi)容,并像人類一樣使用鼠標(biāo)和鍵盤與網(wǎng)頁進(jìn)行互動(dòng)。在遇到難以解決的問題時(shí),Operator會(huì)調(diào)用其強(qiáng)大的推理能力進(jìn)行自我糾正,如果仍然無法解決,則會(huì)將控制權(quán)交還給用戶,確保操作的準(zhǔn)確性和安全性。