字節(jié)跳動(dòng)近日推出了一款名為豆包手機(jī)助手的技術(shù)預(yù)覽版,這款產(chǎn)品憑借其突破性的功能設(shè)計(jì),重新定義了手機(jī)語(yǔ)音助手的邊界。與傳統(tǒng)只能完成簡(jiǎn)單指令的助手不同,豆包手機(jī)助手被賦予了視覺感知、長(zhǎng)期記憶以及跨應(yīng)用操作能力,甚至能夠深度理解并執(zhí)行復(fù)雜任務(wù),成為用戶手機(jī)中的“智能伙伴”。
該產(chǎn)品的核心亮點(diǎn)之一是端側(cè)記憶功能。通過(guò)在手機(jī)本地實(shí)現(xiàn)持久化存儲(chǔ),豆包手機(jī)助手能夠像私人管家一樣記住用戶的日常細(xì)節(jié)。例如,當(dāng)用戶詢問(wèn)車位信息時(shí),助手會(huì)直接調(diào)出之前拍攝的車位照片并標(biāo)注樓層;在需要取快遞時(shí),它能快速讀取短信中的取件碼;甚至在查詢高鐵座位時(shí),也能自動(dòng)翻找購(gòu)票記錄提供準(zhǔn)確信息。更令人驚喜的是,這種記憶具備聯(lián)想能力——若用戶曾表達(dá)過(guò)對(duì)梵高的喜愛,助手在規(guī)劃巴黎行程時(shí),會(huì)優(yōu)先推薦奧賽博物館的梵高特展。
跨應(yīng)用操作能力則是豆包手機(jī)助手的另一大殺手锏。借助先進(jìn)的GUI模擬點(diǎn)擊技術(shù),它能夠像真人一樣接管屏幕,突破應(yīng)用壁壘完成自動(dòng)點(diǎn)擊、輸入和滑動(dòng)。在購(gòu)物場(chǎng)景中,用戶只需一句指令,助手即可在3秒內(nèi)打開淘寶、京東、拼多多和抖音電商,比價(jià)后直接跳轉(zhuǎn)至最低價(jià)商品的支付頁(yè)面。在辦公場(chǎng)景中,它甚至能響應(yīng)“幫我請(qǐng)三天假并訂回老家高鐵”的指令,自動(dòng)填寫請(qǐng)假單、提交審批,隨后無(wú)縫跳轉(zhuǎn)至12306完成訂票和付款。對(duì)于特斯拉車主,一句“打開前備箱放東西”即可實(shí)現(xiàn)遠(yuǎn)程車輛控制。
多模態(tài)交互方面,豆包手機(jī)助手展現(xiàn)了強(qiáng)大的實(shí)時(shí)視覺理解能力。當(dāng)用戶將英文繪本對(duì)準(zhǔn)攝像頭時(shí),助手會(huì)立即啟動(dòng)視頻通話模式,畫面中同步顯示中英雙語(yǔ)字幕,AI用流利的普通話或英語(yǔ)講述故事并與用戶互動(dòng)提問(wèn)。更有趣的是,它能根據(jù)孩子的反應(yīng)臨時(shí)改編劇情,讓閱讀過(guò)程充滿趣味性。例如,若孩子對(duì)某個(gè)角色表現(xiàn)出興趣,助手會(huì)即興擴(kuò)展相關(guān)情節(jié),提升互動(dòng)體驗(yàn)。
針對(duì)復(fù)雜的長(zhǎng)鏈條需求,豆包手機(jī)助手引入了Pro模式。該模式整合了GUI模擬點(diǎn)擊、API工具調(diào)用和超強(qiáng)推理能力,能夠完成以往AI難以處理的任務(wù)。以巴黎旅行為例,用戶只需模糊表達(dá)“下個(gè)月去巴黎,把收藏的餐廳標(biāo)到地圖上,再幫我訂一張有我喜歡展覽的博物館票”,助手便會(huì)自動(dòng)執(zhí)行全流程:確認(rèn)用戶喜愛梵高后,搜索奧賽博物館的梵高特展信息,打開地圖應(yīng)用標(biāo)記收藏的米其林餐廳,最后跳轉(zhuǎn)官網(wǎng)搶票并生成行程單推送至備忘錄。
在隱私保護(hù)方面,字節(jié)跳動(dòng)采取了嚴(yán)格措施。所有記憶數(shù)據(jù)均在手機(jī)本地進(jìn)行處理和加密存儲(chǔ),絕不上傳至云端。用戶擁有完全控制權(quán),可隨時(shí)在設(shè)置中一鍵關(guān)閉記憶功能。這種設(shè)計(jì)既確保了智能體驗(yàn)的流暢性,又為用戶提供了可信賴的隱私保障,為AI時(shí)代的隱私保護(hù)提供了新思路。









