硅谷科技圈近日被一款來自中國的開源模型攪動得沸沸揚揚。這款名為DeepSeek-OCR的30億參數模型,憑借"視覺壓縮文本"的創新理念,在GitHub上線三天即斬獲3300顆星,HuggingFace熱榜沖至次席,X平臺更是掀起"AI的JPEG時刻"的熱烈討論。
這款被開發者戲稱"被名字耽誤的革命性模型",其核心突破在于重構了文本處理范式。研究團隊發現,當文本token數與視覺token數的壓縮比控制在10倍以內時,模型OCR解碼準確率可達97%;即便壓縮至20倍,仍能保持60%的準確度。這種"以圖載文"的思路,恰似人類閱讀時"掃一眼知全貌"的認知模式——通過單張圖片承載數千文字信息,顯著降低計算成本。
技術實現層面,模型采用雙組件架構:編碼器DeepEncoder負責將圖像轉化為高密度視覺token,解碼器DeepSeek3B-MoE-A570M則從壓縮token中重建文本。其中編碼器的設計尤為精妙:先通過窗口注意力機制進行局部特征提取,再經16倍卷積壓縮器削減token數量,最后由全局注意力模型完成深度理解。這種"局部-壓縮-全局"的三段式處理,使1024x1024分辨率圖像的token數從4096銳減至256。
實驗數據顯示,該模型在主流文檔解析基準OmniDocBench上創造新紀錄。僅用100個視覺token,性能即超越使用256token的GOT-OCR2.0;400token時與前SOTA持平;不足800token便大幅領先需7000token的MinerU2.0。更驚人的是其訓練效率——單塊A100-40G GPU每日可生成超20萬頁優質訓練數據,較傳統方法提升數十倍。
技術突破背后是三位低調研究者的智慧結晶。主導開發者Haoran Wei曾主導第二代OCR系統GOT-OCR2.0研發,此次工作延續了端到端文檔解析的技術路徑。核心成員Yaofeng Sun深度參與DeepSeek R1、V3等明星模型開發,而擁有谷歌近萬次學術引用的Yukun Li,則持續貢獻于V2/V3系列模型優化。
研究團隊提出的"光學壓縮模擬遺忘機制"引發更深層思考。通過將近期記憶比作高分辨率圖像(需多token保留細節),遠期記憶類比為模糊圖像(用少token自然壓縮),模型可動態分配計算資源。這種類腦設計使超長上下文處理成為可能——當對話或文檔跨越漫長時間軸時,系統能像人類記憶般自動"淡忘"非關鍵信息,同時保持核心內容的精準度。
卡帕西等AI領域權威對"視覺優于文本輸入"的設計給予高度評價,認為這打開了AI記憶架構的新路徑。相較于傳統模型對短期、中期、遠期上下文"一視同仁"的處理方式,DeepSeek的解決方案更接近人類認知模式,有望解決長文本處理中的算力爆炸難題。
目前該模型已展現多領域解析能力,除常規文字識別外,還能深度解析金融報表、化學分子式、數學幾何圖及百余種語言文檔。這種跨模態理解突破,正推動AI向更接近人類智能的方向演進。











