AI眼鏡不僅要讓大模型,也要讓人同時具備觀察世界的能力。
文|游勇
編|周路平
比六月的熱浪更加滾燙的,估計只有AI眼鏡了。
整個六月,AI眼鏡已經(jīng)成為全行業(yè)矚目的硬件品類。小米在這個月發(fā)布了AI眼鏡,掀起了全行業(yè)的關(guān)注和討論,給這個新品類添了一把火;那個賣出200萬臺AI眼鏡的meta又與眼鏡品牌Oakley推出了面向運動市場的AI眼鏡;而蘋果的AI眼鏡路線圖也被首次曝光。
除了這些大廠的動作,AR領(lǐng)域?qū)I(yè)品牌Rokid也在為這個行業(yè)加了一捆柴。盡管Rokid的首臺AI眼鏡Rokid Glasses已經(jīng)下產(chǎn)線,首批F碼用戶也已經(jīng)收到貨,但25萬臺的預(yù)售量,依然是Rokid甜蜜的煩惱。在Rokid多個官方賬號下面,每更新一條內(nèi)容,評論區(qū)就會涌入大量催發(fā)貨的用戶。
這種甜蜜煩惱的背后,是AI眼鏡已經(jīng)迎來風(fēng)口,無論是廠商競爭還是用戶熱情,都在一浪接著一浪。
有數(shù)據(jù)預(yù)測,預(yù)計2025年,全球AI智能眼鏡銷量達(dá)到550萬臺,成為下一代現(xiàn)象級的交互終端。如今,市場玩家們野心勃勃,整個行業(yè)都在烈火烹油。
01
爆火背后,一場交互革命
AI眼鏡受追捧背后,一場人機交互的革命正在席卷而來。
從最近的幾款明星產(chǎn)品能看到,拍攝第一人稱視角的照片和視頻是最多人體驗的功能。以前大家都是舉著手機或者相機去拍攝,但很多場景需要解放雙手,比如騎行、聚會抓拍等。
除了拍攝第一人稱視角的照片和視頻,當(dāng)我們在海外旅行時,語言常常是需要克服的難關(guān),以前需要借助手機翻譯軟件或者是專門的隨身翻譯器,一句一句給對方看。
但現(xiàn)在可以戴著AI眼鏡去交流,翻譯的內(nèi)容通過語音播報或者實時顯示在屏幕上,無論是在餐館點餐或者看路邊指示牌,都不用擔(dān)心語言不通帶來的出行障礙。
類似的場景還有很多。央視記者曾用Rokid Glasses嘗試過這樣的一個場景,在新聞采訪時,很多受訪者在碩大的鏡頭前會感到緊張不適,但換成眼鏡,很多人往往會忽略掉這么一個小小的設(shè)備,不僅受訪者更輕松自然,采訪的效果也更佳。
AI能力的突破也是AI眼鏡受熱捧的一個關(guān)鍵。過往的一些智能眼鏡類產(chǎn)品,更像是視頻眼鏡,更多是記錄拍攝,很難真正與現(xiàn)實世界做交互。
大模型帶來的AI能力提升,徹底改變了這種體驗。比如當(dāng)你戴著AI眼鏡,問眼前的水果攤,應(yīng)該選擇哪個榴蓮,AI視覺會根據(jù)榴蓮的外觀給出答案。
當(dāng)你看到不認(rèn)識的動植物,AI眼鏡可以告訴你答案。
甚至在便利店購物時,別人都需要掏出手機,打開支付寶,點開二維碼,而你只需要用眼鏡看一下,然后說一聲確認(rèn)支付,就能完成支付的體驗,旁邊人都愣在了原地,而你瀟灑離去。
不少拿到機器的用戶也在探索更多使用的可能。比如不少家長在輔導(dǎo)孩子作業(yè)時經(jīng)常雞飛狗跳,而戴著AI眼鏡可以識別題目,并且AI會給出解題步驟和答案,這對很多家長也是個福音。
不難發(fā)現(xiàn),一副只有50g左右的眼鏡,輕度應(yīng)用五六個小時的續(xù)航,能隨時應(yīng)答通過AI給你幫助,能拍攝第一視角的照片和視頻,當(dāng)這些元素匯集到一起時,最終造就了一個爆款品類。
在20年前的功能機時代,人們通過按鍵來交互;到10年前的智能機時代,觸控式交互帶來了體驗上的革命性變化。如今,隨著語音和視覺交互的逐漸成熟,新一代的交互終端也在一步步逼近現(xiàn)實。
02
AI眼鏡,要不要帶顯示?
目前,行業(yè)內(nèi)的玩家大致可以根據(jù)產(chǎn)品分為幾種類型:一是像meta雷朋和小米采用的不帶顯示但帶有攝像頭的方案,二是帶顯示但沒有攝像頭的方案,三是Rokid Glasses這類采用AI+AR的方案,既有攝像頭感知物理世界,又有AR顯示給用戶提供更多的信息交互。
沒有顯示的方案,可以把成本和功耗做得更低,但也帶來了局限和弊端,包括體驗不連貫、場景有限等。
以日常使用頻率最高的拍照和拍視頻為例,因為沒有顯示,用戶很難知道當(dāng)前畫面是正的還是歪的。而現(xiàn)在的光波導(dǎo)方案,雖然不會直接在眼睛上呈現(xiàn)最終的拍攝效果,但可以讓用戶很清晰地知道視覺的中心位置,避免拍歪的情況。
業(yè)內(nèi)看來,不帶顯示的AI眼鏡更像是行業(yè)發(fā)展初期的折中方案。它在現(xiàn)階段,節(jié)省了成本、提高了續(xù)航,同時也降低產(chǎn)品的量產(chǎn)難度。
但外界普遍認(rèn)為未來會向AI+AR的方向演進(jìn),AR為AI提供虛實融合的顯示載體。換句話說,讓AI看得見才是好AI,才更能適應(yīng)多場景的使用需要。
事實上,上述提到的很多AI眼鏡的使用場景都在指向一點,要想讓AI在物理世界有更好的體驗,光有語音交互是不夠的,很多場景依然離不開AI與AR的結(jié)合。
比如Rokid與高德地圖最新推出的基于智能眼鏡的導(dǎo)航智能體(NaviAgent),能看到顯示在應(yīng)用場景中的價值。相比于簡單的語音播報,AR可以呈現(xiàn)更多關(guān)鍵信息,包括貼地引導(dǎo)線和場景化轉(zhuǎn)向立牌,讓用戶在復(fù)雜環(huán)境中也能輕松找到方向。
比如同樣是同聲傳譯的功能,不帶顯示的AI眼鏡,只能依賴語音播報,接收信息的效率低,而且容易受到外界干擾,如果有路人搭話或者手機鈴聲響起,都會打斷交互過程,體驗不佳。
AR顯示的方案,則可以把這些信息呈現(xiàn)在眼前,無需等待語音讀完。眾所周知,眼睛獲取信息的效率遠(yuǎn)高于耳朵,人類80%以上的信息獲取來自視覺。
今年年初,Rokid CEO祝銘明的一段演講視頻走紅,當(dāng)時他就佩戴Rokid Glasses實現(xiàn)了脫稿演講。對于他這類社恐人群,帶有顯示的AI眼鏡既避免了念稿的生硬,又完全不用擔(dān)心緊張忘詞,演講內(nèi)容能在外界不易察覺的情況下懸浮在眼前。
顯然,演講提詞的功能是目前不帶顯示的AI眼鏡沒有辦法實現(xiàn)的。不久前,央視主持人也專門體驗了Rokid Glasses的這一功能,甚至AI的語音識別系統(tǒng)能捕捉演講者語速變化,當(dāng)突然加速、刻意放緩甚至跳讀,文本滾動都能實現(xiàn)無縫同步,整個流程非常絲滑。
“AR顯示功能,我們認(rèn)為是非常重要的一個部分。相當(dāng)于這款A(yù)I眼鏡讓人和大模型同時具備了觀察世界的能力。”Rokid副總裁王俊杰說,但這幾個功能疊加,對產(chǎn)品研發(fā)和量產(chǎn)的難度,會大幅提升。
不過,目前AI眼鏡的顯示空間還比較小,在特定角度也會出現(xiàn)綠光。但在業(yè)內(nèi)看來,隨著光機越做越小,顯示區(qū)域越做越大,會有可能實現(xiàn)更多的應(yīng)用場景。
之前就有用戶用Rokid Glasses制作過一個打麻將的視頻,它可以記錄每個人出的牌,然后用AI計算每張牌點炮的概率。雖然這是后期渲染的視頻,但也給外界提供了有趣而龐大的想象空間。
隨著未來與更多軟硬件生態(tài)的打通,AI+AR的交互體驗將更加豐富,而看得見的AI也會比單純的AI語音助手,提供更加舒適多彩的體驗。
03
產(chǎn)能之外,還有哪些難題待解
盡管市場熱鬧,但業(yè)內(nèi)普遍的觀點是,AI眼鏡還在初級階段。一個最直觀的感受是,隨著用戶熱情的高漲,AI眼鏡的產(chǎn)能遇到了不小的挑戰(zhàn)。
相比于手機等成熟的電子產(chǎn)品,AI眼鏡作為一個全新的品類,面臨著產(chǎn)業(yè)鏈爬坡的難題。去年年底開始,行業(yè)掀起了百鏡大戰(zhàn),數(shù)十家廠商陸續(xù)發(fā)布了AI眼鏡,但真正量產(chǎn)上市的產(chǎn)品并不多,很多還處于PPT階段。
這也意味著,無論是產(chǎn)品成熟度,還是供應(yīng)鏈的能力,AI眼鏡都還有很多的課要補。
Rokid Glasses在發(fā)布后就一直關(guān)注度很高,祝銘明直言壓力大。尤其相比于不帶顯示的AI眼鏡,Rokid Glasses這類具備光波導(dǎo)功能的AI+AR的眼鏡,無論是工藝,還是量產(chǎn)的難度都會更高。
除了產(chǎn)能的困擾,AI眼鏡作為新事物,產(chǎn)品本身的體驗,也可能與用戶的預(yù)期存在一些偏差。
比如視頻抖動,盡管現(xiàn)在的產(chǎn)品都加入了AI防抖算法,但畢竟戴在頭上,抖動很難避免,尤其是夜間光線差的環(huán)境下,這個問題會更明顯。不過,從用戶的實際體驗來看,AI眼鏡拍攝的照片和視頻用來發(fā)朋友圈完全夠用。
另外,續(xù)航一向是AI眼鏡,甚至是所有XR設(shè)備都焦慮和困擾的難題。一方面眼鏡要求盡可能地輕量化,實現(xiàn)長時間佩戴;但另一方面,不到50g的體積意味著很難放下高容量的電池,續(xù)航的矛盾會長期存在。
目前,包括meta的產(chǎn)品在內(nèi),普遍只能做到連續(xù)錄像一小時左右的時長。而鏡片帶光波導(dǎo)顯示的產(chǎn)品,更是增加了耗電量。
不過,業(yè)內(nèi)已經(jīng)在想方設(shè)法增加產(chǎn)品的續(xù)航時間,比如配備可充電的眼鏡盒。Rokid甚至還推出了膠囊電池。這個不到10g的膠囊形狀電池,可以直接磁吸在鏡腿上,既不會帶來太大負(fù)擔(dān),也不會影響美觀。而膠囊電池的續(xù)航能力將提升至原有水平的三倍,在直播等高耗電場景也可以延長2-3小時的續(xù)航時間。
還有一大難題是AI眼鏡的算力有限,目前基本依賴云端大模型。不少用戶反饋市面上的一些AI眼鏡的AI能力表現(xiàn)不佳,比如在對話時,AI助手反應(yīng)不及時,或者對物體的識別不準(zhǔn)確等,而用戶也不能去調(diào)用市面上成熟的大模型產(chǎn)品。
這對于不少AI眼鏡的創(chuàng)業(yè)型公司反而不是困擾,因為不涉及基礎(chǔ)模型的開發(fā),開放與第三方大模型的合作,反而能給用戶提供更多元的選擇。
比如Rokid Glasses的設(shè)置界面,就提供了包括通義千問、豆包、DeepSeek、智譜在內(nèi)的多種大模型,用戶可以設(shè)置不同的基礎(chǔ)模型和視覺模型,保證了不同的任務(wù)能夠輸出最佳的效果。而且,AI輸出的內(nèi)容在眼鏡端進(jìn)行了優(yōu)化,并不會長篇大論,只會顯示最核心的信息和結(jié)論。
另外,AI眼鏡也面臨著隱私安全、應(yīng)用生態(tài)不完善等問題。總之,市場的熱鬧在推動著行業(yè)走向成熟,但無論是廠商還是用戶,都應(yīng)該對行業(yè)的現(xiàn)狀有著更清醒的認(rèn)知。
客觀說,任何革命性意義的產(chǎn)品早期都存在很多的不足,從電腦到智能手機,都經(jīng)歷了長期的迭代和演進(jìn),最終一步步走向成熟。這也意味著,需要用戶給予更多的包容。
AI眼鏡的能力其實一直在加速迭代,比如祝銘明在年初爆火的演講中,翻頁還依賴指環(huán),但交付的產(chǎn)品已經(jīng)實現(xiàn)了AI的智能提詞和翻頁。
過去十年,XR經(jīng)歷了多輪起伏,隨著這些年AI能力的融入和產(chǎn)品輕量化的改進(jìn),行業(yè)再一次被寄予厚望,至少讓外界看到了AI眼鏡不僅僅是極客或者嘗鮮者的玩具,而是能夠真正在現(xiàn)實生活中,給人們帶來便利和酷炫體驗。