人工智能領(lǐng)域再迎突破,DeepSeek團隊在視覺-文本轉(zhuǎn)換領(lǐng)域取得重要進展,其新發(fā)布的OCR模型通過創(chuàng)新架構(gòu)實現(xiàn)了前所未有的壓縮效率。該模型采用端到端設(shè)計,能夠在保持高精度的前提下,用極少量視覺token還原出十倍以上的文本信息,為解決大語言模型的長上下文處理難題提供了全新思路。
研究團隊提出的"上下文光學(xué)壓縮"理論,通過優(yōu)化視覺表征方式,成功將包含千字文檔的圖像壓縮為數(shù)十個視覺token。實驗數(shù)據(jù)顯示,在Fox基準測試中,模型在10倍壓縮比下仍能保持97%的解碼精度,即使壓縮比達到20倍,精度仍維持在60%左右。這種壓縮效率遠超傳統(tǒng)OCR模型,為視覺語言模型的數(shù)據(jù)處理開辟了新路徑。
模型的核心創(chuàng)新在于其雙編碼器架構(gòu)。視覺編碼器DeepEncoder采用SAM-base與CLIP-large的串聯(lián)設(shè)計,通過窗口注意力和全局注意力的組合,在保持3.8億參數(shù)規(guī)模的同時,實現(xiàn)了高分辨率圖像的有效壓縮。特別設(shè)計的動態(tài)插值位置編碼機制,使模型能夠自適應(yīng)不同分辨率的輸入,最高可處理超過A4尺寸的超高分辨率圖像。
解碼器部分采用DeepSeek-3B-MoE架構(gòu),通過混合專家模型設(shè)計,在激活5.7億參數(shù)的情況下達到了30億參數(shù)模型的表達能力。這種設(shè)計使得模型在保持高效推理的同時,能夠準確解析包含圖表、化學(xué)方程式、幾何圖形等復(fù)雜內(nèi)容的圖像,并支持近百種語言的文本識別。
在OmniDocBench基準測試中,該模型展現(xiàn)出顯著優(yōu)勢。使用100個視覺token時,其性能已超越需要256個token的GOT-OCR2.0;當(dāng)token數(shù)量控制在800個以內(nèi)時,更超越了需要6000個token的MinerU2.0。實際部署測試顯示,20個計算節(jié)點(配備A100-40G GPU)每日可生成3300萬頁訓(xùn)練數(shù)據(jù),大幅降低了LLM/VLM的預(yù)訓(xùn)練成本。
研究團隊特別強調(diào)了模型的通用性。除文檔文本識別外,該模型還能完成圖像描述、物體檢測、語境定位等基礎(chǔ)視覺任務(wù)。多語言測試表明,模型對包括中文、阿拉伯文在內(nèi)的復(fù)雜文字系統(tǒng)同樣具有高效識別能力,這使其在全球范圍內(nèi)的應(yīng)用成為可能。
技術(shù)白皮書詳細披露了模型的實現(xiàn)細節(jié)。通過兩層卷積模塊實現(xiàn)的16倍下采樣,配合瓦片化處理技術(shù),有效控制了激活內(nèi)存消耗。特別設(shè)計的Gundam模式,通過組合不同分辨率的局部和全局視圖,進一步提升了超高分辨率圖像的處理能力。這些創(chuàng)新使得單個模型能夠同時支持多種分辨率輸入。
目前,該模型已在GitHub和HuggingFace平臺開源,包含完整代碼和預(yù)訓(xùn)練權(quán)重。研究團隊表示,這種視覺-文本壓縮范式不僅適用于OCR任務(wù),還可推廣到其他需要多模態(tài)處理的場景,為提升大規(guī)模AI系統(tǒng)的計算效率提供了新的技術(shù)路徑。實際應(yīng)用案例顯示,該模型在金融、法律、科研等文檔密集型領(lǐng)域具有顯著優(yōu)勢。











