當(dāng)手機(jī)屏幕亮起,一張包含復(fù)雜圖表的截圖被快速識別,數(shù)據(jù)趨勢以語音形式清晰呈現(xiàn);當(dāng)鏡頭對準(zhǔn)一道幾何難題,解題步驟隨即分步展示——這些曾存在于科幻場景中的功能,如今正通過小米研發(fā)的HyperVL模型逐步走進(jìn)現(xiàn)實(shí)。這項(xiàng)專為移動設(shè)備設(shè)計(jì)的多模態(tài)AI技術(shù),在近日公布的學(xué)術(shù)研究中展現(xiàn)出突破性進(jìn)展,其核心突破在于將云端AI的強(qiáng)大能力壓縮進(jìn)手機(jī)等輕量級設(shè)備。
傳統(tǒng)多模態(tài)模型雖具備圖像理解、文字識別等能力,但受限于硬件資源,往往需要依賴云端服務(wù)器運(yùn)行。這就像將專業(yè)攝影棚的整套設(shè)備裝進(jìn)背包,不僅體積龐大,能耗也難以控制。小米研究團(tuán)隊(duì)面臨的挑戰(zhàn),正是如何讓AI在保持"智慧"的同時,適應(yīng)移動設(shè)備有限的計(jì)算空間。經(jīng)過三年攻關(guān),他們提出的解決方案包含三大核心技術(shù):圖像分塊處理策略、視覺分辨率動態(tài)調(diào)節(jié)機(jī)制,以及雙模型協(xié)同訓(xùn)練框架。
在圖像處理環(huán)節(jié),研究團(tuán)隊(duì)創(chuàng)新性地采用"分塊計(jì)算"模式。系統(tǒng)將高分辨率圖片自動切割為多個獨(dú)立區(qū)塊,每個區(qū)塊單獨(dú)完成特征提取后再進(jìn)行全局整合。這種設(shè)計(jì)使內(nèi)存占用峰值降低72%,同時保證98%以上的信息完整度。更關(guān)鍵的是,團(tuán)隊(duì)開發(fā)的視覺分辨率壓縮器能像專業(yè)攝影師般智能判斷:面對手寫筆記時自動提升局部精度,處理風(fēng)景照片時則優(yōu)化整體構(gòu)圖,使計(jì)算資源分配效率提升3倍以上。
雙一致性學(xué)習(xí)框架的引入,則解決了輕量化模型與性能之間的矛盾。該技術(shù)通過構(gòu)建大小兩個協(xié)同工作的模型,讓精簡版模型在保持快速響應(yīng)的同時,持續(xù)向完整版模型學(xué)習(xí)復(fù)雜推理能力。實(shí)驗(yàn)數(shù)據(jù)顯示,這種設(shè)計(jì)使18億參數(shù)的HyperVL在數(shù)學(xué)推理、圖表解讀等任務(wù)中,達(dá)到甚至超越部分60億參數(shù)模型的準(zhǔn)確率,而推理速度提升達(dá)13倍。
實(shí)際測試場景覆蓋了日常使用的多個維度:在文檔處理測試中,系統(tǒng)能準(zhǔn)確識別手寫體與印刷體混合的數(shù)學(xué)公式,并生成LaTeX格式代碼;界面分析任務(wù)里,可自動提取電商訂單中的商品名稱、價格、配送信息等20余個關(guān)鍵字段;面對包含中英日三語的混合文檔,多語言理解模塊能實(shí)現(xiàn)97%以上的準(zhǔn)確率。特別在移動端實(shí)測中,高通8750平臺運(yùn)行該模型時,連續(xù)處理50張高分辨率圖片后,設(shè)備溫度僅上升2.3℃,功耗維持在常規(guī)應(yīng)用水平。
支撐這些能力的,是團(tuán)隊(duì)構(gòu)建的跨領(lǐng)域訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集包含2300萬張標(biāo)注圖像,覆蓋教育、辦公、生活等12大場景,其中30%的數(shù)據(jù)來自真實(shí)用戶截圖。為確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)開發(fā)了三級篩選機(jī)制:首先通過圖像哈希算法去除重復(fù)樣本,再利用語義分析模型過濾低質(zhì)量標(biāo)注,最后由人工專家組進(jìn)行抽樣核驗(yàn)。這種嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)處理流程,使模型在復(fù)雜場景下的泛化能力提升40%。
在模型優(yōu)化階段,研究團(tuán)隊(duì)針對移動端硬件特性進(jìn)行深度定制。針對NPU計(jì)算單元的并行處理能力,他們重新設(shè)計(jì)了注意力機(jī)制計(jì)算流程,將傳統(tǒng)模型中需要全局計(jì)算的注意力矩陣,轉(zhuǎn)化為可分塊處理的局部矩陣。這種改造使單張圖片的處理延遲從1.2秒降至0.09秒,同時內(nèi)存占用減少86%。更值得關(guān)注的是,模型支持4位權(quán)重量化部署,在幾乎不損失精度的情況下,將存儲需求壓縮至原始模型的1/8。
學(xué)術(shù)界對這項(xiàng)成果給予高度評價。在最近舉行的國際人工智能會議上,評審專家指出:"HyperVL重新定義了移動端AI的性能邊界,其提出的動態(tài)分辨率調(diào)節(jié)和雙模型協(xié)同訓(xùn)練方案,為資源受限場景下的AI部署提供了全新范式。"目前,該研究已引發(fā)多家科技企業(yè)的技術(shù)跟進(jìn),相關(guān)專利申請進(jìn)入實(shí)質(zhì)審查階段。
對于普通用戶而言,這項(xiàng)技術(shù)帶來的改變正在悄然發(fā)生。在小米工程師展示的原型應(yīng)用中,用戶拍攝藥品說明書后,系統(tǒng)不僅能識別文字內(nèi)容,還能根據(jù)劑量說明生成用藥提醒;拍攝外語菜單時,除了實(shí)時翻譯,還能結(jié)合菜品圖片提供推薦建議。這些功能背后,是HyperVL對圖像、文字、布局等多維度信息的綜合理解能力。
技術(shù)團(tuán)隊(duì)透露,下一步研發(fā)將聚焦三個方向:探索自適應(yīng)稀疏化技術(shù)以進(jìn)一步提升能效比,開發(fā)視頻流實(shí)時理解能力,以及構(gòu)建個性化知識庫增強(qiáng)場景適配性。隨著5G網(wǎng)絡(luò)的普及和終端算力的提升,這類移動端智能助手有望在教育、醫(yī)療、工業(yè)等領(lǐng)域催生新的應(yīng)用形態(tài),讓AI技術(shù)真正融入日常生活的每個細(xì)節(jié)。











