DeepSeek 團隊近日開源了一款名為 DeepSeek-OCR 的 30 億參數模型,通過創新的“光學壓縮”技術,在保持高準確率的同時大幅降低文本處理所需的計算資源。該模型將視覺模態引入文本信息處理領域,為解決大語言模型(LLM)處理長文本時的計算瓶頸提供了新思路。
傳統 LLM 在處理長文本時面臨計算復雜度平方級增長的難題——序列長度每增加一倍,算力消耗將呈四倍增長。DeepSeek-OCR 的突破性在于將文本轉換為圖像進行壓縮處理:通過視覺模態的“光學壓縮”,模型用更少的視覺 Token 承載相同信息量。實驗數據顯示,該技術可實現 7-20 倍的 Token 壓縮率,在 10 倍壓縮下 OCR 準確率超過 97%,即使壓縮 20 倍仍能保持 60% 準確率。
模型架構由編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE 組成。DeepEncoder 采用 SAM-base(8000 萬參數)與 CLIP-large(3 億參數)的串聯結構,前者負責局部特征提取,后者進行全局信息整合。中間嵌入的 16× 卷積壓縮器可將輸入圖像的 Token 數量大幅削減,例如 1024×1024 圖像經處理后,進入全局注意力層的 Token 從 4096 個降至數百個。這種設計使模型既能處理高分辨率輸入(支持 512×512 至 1280×1280 多分辨率),又有效控制了內存開銷。
解碼器部分采用混合專家(MoE)架構,64 個專家中激活 6 個,配合 2 個共享專家,實際激活參數約 5.7 億。這種設計使 30 億參數規模的模型兼具 300 億參數模型的表達能力與 50 億參數模型的推理效率。在 OmniDocBench 基準測試中,使用 100 個視覺 Token 的 DeepSeek-OCR 表現優于 GOT-OCR2.0(每頁 256 個 Token),使用 800 個 Token 時則超越 MinerU2.0(平均每頁超 6000 個 Token)。
數據構建方面,團隊從互聯網收集了 3000 萬頁多語言 PDF 文檔(中英文占 2500 萬頁),通過粗標注(fitz 提取)和精標注(PP-DocLayout 等模型生成)結合的方式構建訓練集。針對小語種數據,創新采用“模型飛輪”機制:先用版面分析模型檢測文本區域,再用生成的數據訓練 GOT-OCR2.0,最后用訓練好的模型標注更多數據,形成數據生成閉環。模型還整合了 300 萬條 Word 文檔數據以提升公式識別能力,以及 2000 萬條場景 OCR 數據(中英文各半)增強自然圖像解析能力。
該模型不僅具備基礎 OCR 功能,更實現了對復雜圖像的結構化解析。通過統一提示詞,可自動提取金融圖表數據、轉換化學結構式為 SMILES 格式、解析幾何圖形并生成密集描述。在 STEM 領域(如化學、物理、數學),這種能力可顯著提升符號和圖形密集型場景的處理效率。
研究團隊還提出了一個頗具前瞻性的設想:通過光學壓縮模擬人類遺忘機制。具體方案是將歷史對話內容渲染為圖像,通過逐步壓縮圖像尺寸實現信息模糊化——近期內容保持高分辨率,久遠內容自然淡化。這種設計理論上可支撐“無限上下文”處理,使模型在保持近期上下文高保真的同時,降低歷史上下文的計算資源占用。
目前,DeepSeek-OCR 已開源原生分辨率的 Tiny(64 Token)、Small、Base、Large 四檔模式,以及動態分辨率的 Gundam 模式。在實際生產環境中,單塊 A100-40G 顯卡每日可生成超 20 萬頁訓練數據,20 個節點(160 塊 A100)的集群日處理量可達 3300 萬頁。團隊強調,當前成果僅是起點,后續將開展數字-光學文本交替預訓練、“大海撈針”測試等系統性研究,以全面驗證光學壓縮技術在上下文處理中的潛力。





