近日,人工智能領(lǐng)域迎來一項創(chuàng)新成果——DeepSeek團(tuán)隊推出名為DeepSeek-OCR的模型,通過“上下文光學(xué)壓縮”技術(shù),為大語言模型處理長文檔提供了高效解決方案。該模型突破了傳統(tǒng)方法對算力和內(nèi)存的高依賴,為海量文檔處理場景開辟了新路徑。
當(dāng)前,大語言模型在處理數(shù)千字甚至更長的文本時,計算量呈指數(shù)級增長,導(dǎo)致算力成本飆升,成為制約其應(yīng)用的關(guān)鍵瓶頸。DeepSeek團(tuán)隊從人類視覺系統(tǒng)獲取靈感:人類閱讀文檔時,視覺系統(tǒng)能快速捕捉頁面布局、段落結(jié)構(gòu)等關(guān)鍵信息,并進(jìn)行高效壓縮。基于此,團(tuán)隊提出“視覺預(yù)處理”思路——將文本渲染為圖像,通過視覺模型壓縮后,再交由語言模型處理,從而大幅減少輸入token數(shù)量。
DeepSeek-OCR的核心架構(gòu)由兩部分組成:DeepEncoder(深度編碼器)和基于混合專家模型(MoE)的解碼器。其中,DeepEncoder融合了SAM(Segment Anything Model)和CLIP(Contrastive Language–Image Pre-training)兩種視覺模型架構(gòu)。SAM擅長處理局部細(xì)節(jié),通過窗口注意力機(jī)制捕捉分散的視覺特征;CLIP則依賴全局注意力機(jī)制,提取整體知識信息。兩者通過16倍下采樣的卷積模塊銜接,形成“先局部后全局”的處理流程,有效解決了高分辨率圖像處理中的內(nèi)存溢出和token爆炸問題。
解碼端采用DeepSeek自研的30億參數(shù)混合專家模型,激活參數(shù)為5.7億。該模型通過動態(tài)分配任務(wù)至不同專家網(wǎng)絡(luò),在保持規(guī)模可控的同時,實現(xiàn)了強(qiáng)大的文本還原能力。實驗表明,在處理600至1,300個文本token的英文文檔時,DeepSeek-OCR僅需64或100個視覺token即可完成處理。當(dāng)壓縮比低于10倍時,OCR解碼精度達(dá)97%以上;即使壓縮比達(dá)20倍,準(zhǔn)確率仍維持在60%左右。
在OmniDocBench等實際應(yīng)用場景測試中,DeepSeek-OCR的表現(xiàn)優(yōu)于同類模型。例如,相較于GOT-OCR2.0(每頁256個token)和MinerU2.0(每頁超6000個token),DeepSeek-OCR以更少的視覺token達(dá)到了業(yè)界先進(jìn)水平。模型通過訓(xùn)練包含圖表、化學(xué)分子式、幾何圖形等多樣化數(shù)據(jù),具備了深度解析能力。例如,它能將報告中的圖表轉(zhuǎn)換為表格數(shù)據(jù),將化學(xué)文獻(xiàn)中的分子式輸出為SMILES格式,甚至解析幾何圖形中的線段關(guān)系,為金融、科研、教育等領(lǐng)域提供了新的工具。
目前,DeepSeek已開源該模型的核心代碼和權(quán)重。據(jù)技術(shù)報告披露,在生產(chǎn)環(huán)境中,單張A100-40G GPU每日可處理超20萬頁文檔數(shù)據(jù)。不過,模型仍存在局限:當(dāng)壓縮比超過10倍時,性能會因信息損失或圖像分辨率降低而下降;在處理極端復(fù)雜版面時,解析能力有待提升。OCR任務(wù)與多輪對話理解存在本質(zhì)差異,前者側(cè)重感知和解碼,后者涉及推理、記憶檢索等復(fù)雜認(rèn)知過程。技術(shù)報告指出,未來計劃開展數(shù)字文本與光學(xué)文本交錯的預(yù)訓(xùn)練實驗,并評估長上下文檢索的準(zhǔn)確性。
盡管如此,DeepSeek-OCR為視覺與語言模態(tài)的融合提供了新思路。傳統(tǒng)方法通常將兩者作為獨(dú)立輸入處理,而該模型表明,視覺與語言可互為信息壓縮和解壓的媒介。基于這一范式,未來或可探索將多輪對話歷史渲染為圖像,以更低成本管理更長的對話;或?qū)⒑A恐R庫壓縮為視覺索引,提升知識檢索效率。





