谷歌近期對外展示了其正在研發(fā)的全新人工智能模型——Gemini 2.5 Computer Use。這款模型的核心能力在于,能夠通過瀏覽器分析并處理網(wǎng)絡內(nèi)容,模擬人類用戶在傳統(tǒng)界面中執(zhí)行各類操作。其技術(shù)亮點在于融合了視覺理解與邏輯推理,可精準解析用戶指令并完成表單填寫、信息提交等任務。
該模型的應用場景涵蓋兩大領(lǐng)域:一是自動化測試用戶界面,驗證交互設計的合理性;二是操作僅面向人類用戶開發(fā)的系統(tǒng),尤其針對未開放API接口的封閉平臺。此前,谷歌已在AI Mode智能體功能和“Mariner”研究項目中應用類似技術(shù),例如通過瀏覽器自動根據(jù)食材清單采購商品。
在行業(yè)動態(tài)方面,谷歌此舉與競爭對手形成直接對話。OpenAI在年度開發(fā)者日次日宣布升級ChatGPT智能體功能,強化其代理執(zhí)行復雜任務的能力;而Anthropic公司早在去年就推出了Claude AI模型的計算機操作版本。三家科技巨頭在AI代理技術(shù)領(lǐng)域的競爭愈發(fā)激烈。
谷歌公布的演示視頻顯示,其計算機使用模型在加速三倍播放的條件下,仍能流暢完成網(wǎng)頁瀏覽、文本輸入、元素拖放等13項預設操作。技術(shù)團隊強調(diào),該模型嚴格限定于瀏覽器環(huán)境運行,不會觸達桌面操作系統(tǒng)層級,目前尚未針對系統(tǒng)級控制進行優(yōu)化。基準測試數(shù)據(jù)顯示,其在多網(wǎng)頁和移動端場景中的表現(xiàn)優(yōu)于現(xiàn)有主流方案。
開發(fā)者可通過Google AI Studio和Vertex AI平臺獲取該模型,Browserbase在線演示環(huán)境則提供了直觀體驗入口。用戶可實時觀察模型執(zhí)行“玩2048游戲”“瀏覽Hacker News熱門話題”等動態(tài)任務,直觀感受其交互能力。這種技術(shù)突破為AI代理在消費級場景的落地開辟了新路徑。











