人工智能領域再迎突破,DeepSeek團隊近日發布全新OCR模型DeepSeek-OCR,該模型通過創新的光學壓縮技術,在文本信息處理效率方面取得顯著進展。這款參數規模僅3B的模型,通過將文本內容映射至視覺像素空間,實現了對長文本的高效壓縮。
模型核心架構由DeepEncoder編碼器和DeepSeek3B-MoE-A570M解碼器構成。其中編碼器融合了SAM-base的局部特征捕捉能力與CLIP-large的全局語義理解優勢,通過16倍下采樣技術,在保持97%關鍵信息的前提下,將文本數據壓縮至原始體積的1/16。這種設計猶如古籍修復專家,既能精準識別單個字符細節,又能把握整體文檔結構。
解碼器采用混合專家機制(MoE),可根據輸入文檔特性動態激活6個專業子模塊。這種架構使模型在保持3B參數規模的同時,實際運算需求降至570M,在A100顯卡上可實現每日處理20萬頁文檔的效率,相當于百名專業錄入員的協同工作能力。實驗數據顯示,當壓縮率控制在10倍以內時,模型識別準確率達97%;即便壓縮率提升至20倍,仍能保持約60%的準確率。
在基準測試中,該模型展現出顯著優勢。使用100個視覺token即可超越GOT-OCR2.0(需256個token)的性能,運用不足800個token便優于MinerU2.0(平均需6000+token)。這種高效壓縮能力使其在復雜文檔處理中表現突出:簡單PPT文檔僅需64個token即可完整識別,學術論文處理時400個token可準確保留數學公式等專業符號,同時具備阿拉伯語、僧伽羅語等多語言識別能力。
技術團隊由三位研究員共同完成,項目負責人Haoran Wei曾主導開發GOT-OCR2.0系統,該成果在GitHub獲得超7800次關注。新模型延續了其在光學字符識別領域的技術積累,但將研究重心從傳統視覺問答轉向視覺編碼器對LLM文本處理效率的提升。
實際應用場景中,該模型在金融、醫療、出版等領域展現出巨大潛力。金融機構可快速將財報轉化為結構化數據,醫療行業能高效數字化歷史病歷,出版機構處理古籍的效率可提升數十倍。特別值得注意的是,模型通過視覺token壓縮文本的技術路徑,為突破大語言模型上下文長度限制提供了新思路。
研究團隊指出,OCR任務作為視覺與語言的中間模態,為驗證視覺-文本壓縮范式提供了理想平臺。該模型通過建立視覺與文本間的自然壓縮-解壓縮映射,不僅優化了信息表示效率,更在實用性能與理論價值間取得平衡。這種技術路徑的突破,或將推動多模態大模型向更高效的信息處理方向發展。











