AI領(lǐng)域近期因DeepSeek推出的新型小模型引發(fā)廣泛關(guān)注。這款僅含30億參數(shù)的DeepSeek-OCR模型,雖然參數(shù)規(guī)模遠小于主流大模型,卻在信息處理效率上展現(xiàn)出突破性成果。研究團隊通過實驗證明,AI在處理文檔信息時,采用視覺理解方式比傳統(tǒng)文本處理更具效率優(yōu)勢。
在信息處理成本方面,該模型展現(xiàn)出顯著優(yōu)勢。以中文文本為例,傳統(tǒng)方法處理千字文檔需消耗約1000個文本token,而DeepSeek-OCR通過視覺編碼技術(shù),僅需100個視覺token即可達到97%的精度還原。即使將壓縮比提升至20倍,仍能保持60%的核心信息準確率。這種壓縮效率猶如將整箱書籍精簡為便攜筆記,既節(jié)省空間又保留關(guān)鍵內(nèi)容。
技術(shù)實現(xiàn)的核心在于團隊自主研發(fā)的DeepEncoder編碼器。該系統(tǒng)采用三級處理機制:首先通過窗口注意力機制分塊解析內(nèi)容,繼而通過16倍壓縮模塊去除冗余信息,最后經(jīng)全局注意力提取核心要素。這種處理方式類似于圖書館的分類管理,將常用書籍置于顯眼位置,非常用資料歸檔存儲,在保證檢索效率的同時優(yōu)化存儲空間。
與市面主流OCR工具的對比測試顯示,上海人工智能實驗室2025年發(fā)布的MinerU2.0模型處理單頁文檔需6000余token,而DeepSeek-OCR僅用不足800token即達更優(yōu)效果。這種差異相當(dāng)于用小型貨車完成原本需要重型卡車運輸?shù)娜蝿?wù),且運輸質(zhì)量更高。
研究團隊在實驗過程中發(fā)現(xiàn)意外收獲:當(dāng)信息壓縮比達20倍時,低分辨率圖像的識別精度下降現(xiàn)象,與人類記憶的衰退規(guī)律高度吻合。這種發(fā)現(xiàn)促使他們構(gòu)建出獨特的記憶模擬機制——將對話歷史按時間遠近編碼為不同分辨率的視覺token,近期對話保持高清,遠期對話逐步壓縮,既節(jié)省計算資源又符合實際使用需求。
團隊的創(chuàng)新思維在模型架構(gòu)上體現(xiàn)得尤為明顯。不同于傳統(tǒng)OCR專注識別精度提升,他們將研究重心轉(zhuǎn)向信息壓縮的本質(zhì)問題。這種思路延續(xù)了其在MoE架構(gòu)上的突破——通過"共享專家+路由專家"的組合設(shè)計,用5.7億激活參數(shù)實現(xiàn)超越百億參數(shù)模型的效果。
該模型的技術(shù)路徑突破了傳統(tǒng)框架,通過視覺理解重構(gòu)信息處理范式。這種創(chuàng)新不僅體現(xiàn)在參數(shù)效率上,更在于對AI認知本質(zhì)的探索。當(dāng)行業(yè)還在追求模型規(guī)模時,DeepSeek已轉(zhuǎn)向研究如何讓AI在資源約束下實現(xiàn)智能決策,這種差異化策略或許正預(yù)示著下一代AI技術(shù)的發(fā)展方向。











