7 月 16 日消息,@小米技術(shù) 官微今日發(fā)文詳細(xì)介紹了“快捷找車(chē)”功能,該功能已經(jīng)率先上線 YU7。
據(jù)介紹,該功能支持鎖車(chē)自動(dòng)拍照,用戶在小米汽車(chē) App 的相應(yīng)設(shè)置中開(kāi)啟功能后,鎖車(chē)時(shí)車(chē)輛會(huì)從俯視、前、后、左、右五個(gè)角度自動(dòng)拍攝周?chē)h(huán)境照片,并上傳至 App 的頁(yè)面,為找車(chē)提供線索。
針對(duì) App 中駐車(chē)拍照?qǐng)D片顯示小、信息隱蔽、環(huán)視圖方位難辨等問(wèn)題,小米上線自研圖像理解大模型。該模型基于大量停車(chē)場(chǎng)場(chǎng)景數(shù)據(jù)訓(xùn)練,能對(duì)多視角圖像進(jìn)行處理,準(zhǔn)確識(shí)別車(chē)位號(hào)、樓層、區(qū)域、周邊設(shè)施等信息并結(jié)構(gòu)化輸出,用戶無(wú)需反復(fù)比對(duì)、放大圖片即可獲取相關(guān)信息。
小米手機(jī)用戶可呼出超級(jí)小愛(ài),詢問(wèn)“我的車(chē)停哪里了”,超級(jí)小愛(ài)會(huì)調(diào)用 App 中的車(chē)位信息,通過(guò)語(yǔ)音播報(bào)和彈窗展示告知車(chē)主車(chē)輛位置,方便用戶在手持物品時(shí)快速了解車(chē)位信息。
附全文內(nèi)容如下:
一句話找車(chē):大模型上車(chē),重構(gòu)找車(chē)體驗(yàn)
你是否有過(guò)這樣的經(jīng)歷:在商場(chǎng)地下停車(chē)場(chǎng)繞了十幾分鐘,還是想不起車(chē)停在哪個(gè)柱子旁?或是從寫(xiě)字樓出來(lái),手里拎著電腦包,卻在成排的車(chē)輛中找不到自己的車(chē)?
地下車(chē)庫(kù)信號(hào)弱、結(jié)構(gòu)復(fù)雜,環(huán)境像“復(fù)制粘貼”一樣相似,每次停車(chē),如果沒(méi)有記住車(chē)位號(hào)或者明顯的標(biāo)志,回過(guò)頭來(lái)找車(chē),就仿佛都在玩一場(chǎng)“記憶力游戲”。
作為“移動(dòng)智能空間”的探索者,小米汽車(chē)始終關(guān)注用戶在出行過(guò)程中的每一個(gè)細(xì)節(jié)體驗(yàn),針對(duì)這一高頻痛點(diǎn),小米汽車(chē)上線了全新功能 —— 快捷找車(chē),鎖車(chē)后即會(huì)自動(dòng)總結(jié)車(chē)位信息,車(chē)主再也不用費(fèi)勁記車(chē)位!
01、鎖車(chē)一瞬,五視角自動(dòng)拍照
離開(kāi)車(chē)的瞬間,就是找車(chē)體驗(yàn)的開(kāi)始。你只需在小米汽車(chē) App- 車(chē)輛設(shè)置 - 安全與服務(wù)中開(kāi)啟功能,鎖車(chē)后,車(chē)輛將自動(dòng)從俯視、前、后、左、右五個(gè)角度拍攝周?chē)h(huán)境照片,并上傳至小米汽車(chē) App 的頁(yè)面。每張照片,都是你“找車(chē)的線索”。
但小米大模型團(tuán)隊(duì)并未止步于“拍照存圖”這一步,團(tuán)隊(duì)進(jìn)一步洞察用戶需求,力爭(zhēng)為用戶提供更加直觀、快捷的找車(chē)體驗(yàn)。
02、AI 識(shí)別,不僅能看、更能理解
駐車(chē)拍照的圖片在小米汽車(chē) App 界面中顯示較小,樓層、區(qū)域信息往往隱藏在墻面的小角落,用戶需要點(diǎn)擊放大后查看,而前后左右的環(huán)視圖還需要用戶自己去“腦補(bǔ)”方位關(guān)系,辨識(shí)困難。
為了解決這些痛點(diǎn),小米自研圖像理解大模型正式上線!
小米自研圖像理解大模型基于大量停車(chē)場(chǎng)場(chǎng)景數(shù)據(jù)訓(xùn)練,模型能基于多視角圖像,進(jìn)行圖像預(yù)處理、關(guān)鍵特征區(qū)域裁切、編碼、推理,準(zhǔn)確識(shí)別停車(chē)位特征,最終結(jié)構(gòu)化地輸出車(chē)位號(hào)、樓層、區(qū)域、周邊設(shè)施等信息。
通過(guò)這一功能,用戶無(wú)需反復(fù)比對(duì)圖片、放大查看,就可以直接獲取車(chē)位號(hào)及車(chē)位環(huán)境的描述。
這樣簡(jiǎn)單自然的體驗(yàn),背后是小米長(zhǎng)期以來(lái)在圖像理解領(lǐng)域的技術(shù)積累。
小米很早就開(kāi)始布局視覺(jué)大模型的研發(fā),構(gòu)建起了一整套自研的圖像理解大模型體系,考慮到不同場(chǎng)景的算力條件不同,小米自研圖像理解大模型通過(guò)不同大小的視覺(jué)模塊結(jié)合不同尺寸的大語(yǔ)言模型,推出了不同大小的模型:
1)大尺寸模型參數(shù)量大,具備更強(qiáng)的上下文理解和特征識(shí)別能力,適用于復(fù)雜的、精度要求高的場(chǎng)景;
2)小尺寸模型在保證基礎(chǔ)識(shí)別能力的同時(shí),具備更高的運(yùn)行效率,服務(wù)器成本較低;
為了兼顧快捷找車(chē)的速度和性能需求,技術(shù)上采用“大模型跑通 + 小模型部署”的策略 —— 首先采用大尺寸模型快速構(gòu)建起完整的車(chē)位識(shí)別與環(huán)境分析框架,然后通過(guò)知識(shí)蒸餾的方式訓(xùn)練將能力“壓縮”傳遞給輕量級(jí)模型,大大節(jié)約了大模型部署的成本。這一方案,不僅讓智能識(shí)別更準(zhǔn)確,也兼顧了速度與成本,是小米多模態(tài)大模型技術(shù)在垂直場(chǎng)景落地中的一次重要實(shí)踐。
通過(guò)評(píng)測(cè),室內(nèi)車(chē)位號(hào)識(shí)別準(zhǔn)確率達(dá) 93%,室外車(chē)位號(hào)識(shí)別準(zhǔn)確率達(dá) 98%,周?chē)h(huán)境特征準(zhǔn)確率在 90% 以上。
* 說(shuō)明:該功能已率先上線 YU7,需要您在車(chē)輛上登錄個(gè)人賬號(hào)后才能進(jìn)行使用,泊車(chē)時(shí)若未開(kāi)啟透明底盤(pán),車(chē)輛將無(wú)法獲取底盤(pán)照片。
03、一問(wèn)小愛(ài)即知車(chē)位,找車(chē)更輕松
除了小米汽車(chē) App 上顯示的車(chē)位總結(jié)的信息,小米手機(jī)用戶還可以直接呼出超級(jí)小愛(ài),問(wèn)一句 ——“我的車(chē)停哪里了”,超級(jí)小愛(ài)將自動(dòng)調(diào)用小米汽車(chē) App 中的車(chē)位號(hào)信息,并通過(guò)語(yǔ)音播報(bào) + 彈窗展示,告知車(chē)主車(chē)停的位置。
當(dāng)你從商場(chǎng)購(gòu)物出來(lái),手里拿著大包小包,此時(shí)只需手機(jī)喚醒超級(jí)小愛(ài),一句提問(wèn),車(chē)輛信息一目了然,找車(chē)的難度瞬間降低。
隨著大模型與多模態(tài)技術(shù)的深度融合,過(guò)去那些讓人煩惱的小細(xì)節(jié) —— 看不懂的圖片、找不到的車(chē)位、模糊的環(huán)境線索,如今都能交給大模型自動(dòng)識(shí)別與理解,它不僅“看得見(jiàn)”、“看得懂”,還“聽(tīng)得懂”、“答得出”。
科技的進(jìn)化,不只是更強(qiáng)的算力和模型參數(shù),更是讓每一個(gè)用戶少一點(diǎn)麻煩,多一點(diǎn)從容。小米將繼續(xù)拓展 AI 視覺(jué)在生活服務(wù)場(chǎng)景的落地應(yīng)用,讓每個(gè)用戶通過(guò)大模型“看”得更清楚、生活得更輕松。