DeepSeek近期推出了一款名為DeepSeek-OCR的新型模型,該模型通過圖像技術(shù)革新了數(shù)據(jù)存儲(chǔ)方式,僅需傳統(tǒng)方法十分之一的token,即可實(shí)現(xiàn)同等信息量的存儲(chǔ)。這一突破性成果引發(fā)了全球科技界的廣泛關(guān)注,甚至被業(yè)內(nèi)人士戲稱為“讓信息論創(chuàng)始人香農(nóng)和計(jì)算機(jī)之父馮·諾伊曼都為之側(cè)目”的技術(shù)。
與傳統(tǒng)OCR技術(shù)不同,DeepSeek-OCR實(shí)現(xiàn)了逆向創(chuàng)新:將海量文字信息轉(zhuǎn)化為圖像進(jìn)行存儲(chǔ)。這種技術(shù)路徑的轉(zhuǎn)變?cè)从谝粋€(gè)簡(jiǎn)單觀察——單張圖片包含的信息量遠(yuǎn)超等量文字描述。例如,在文檔理解測(cè)試中,該模型僅用100個(gè)視覺token就超越了需要256個(gè)token的GOT-OCR 2.0模型,在更復(fù)雜場(chǎng)景下,800個(gè)token的表現(xiàn)更是遠(yuǎn)超平均需要6000+token的MinerU 2.0模型。
技術(shù)團(tuán)隊(duì)設(shè)計(jì)了多層級(jí)存儲(chǔ)方案:簡(jiǎn)單文檔僅需64個(gè)視覺token,內(nèi)容復(fù)雜的頁面會(huì)自動(dòng)切換至400個(gè)token的Large模式,更可動(dòng)態(tài)啟用Gundam模式實(shí)現(xiàn)自適應(yīng)存儲(chǔ)。這種分級(jí)機(jī)制不僅優(yōu)化了存儲(chǔ)效率,更帶來意想不到的副作用——模型能自動(dòng)識(shí)別并轉(zhuǎn)換圖表數(shù)據(jù)為Excel格式,將分子結(jié)構(gòu)圖轉(zhuǎn)化為標(biāo)準(zhǔn)SMILES代碼,甚至能精準(zhǔn)定位圖片在文檔中的位置及其周邊文字信息。
這項(xiàng)創(chuàng)新恰好解決了AI訓(xùn)練領(lǐng)域的核心痛點(diǎn):高質(zhì)量數(shù)據(jù)匱乏。傳統(tǒng)方法只能提取文檔中的文字信息,而圖表、插圖等二維數(shù)據(jù)長(zhǎng)期被忽視。DeepSeek-OCR的出現(xiàn),使得單張A100顯卡每日即可處理20萬頁文檔,相當(dāng)于為模型開辟了全新的數(shù)據(jù)礦藏。更關(guān)鍵的是,圖像存儲(chǔ)方式使token使用量縮減至原來的十分之一,在壓縮20倍的情況下仍能保持60%的準(zhǔn)確率,僅損失3.5%的性能就實(shí)現(xiàn)了存儲(chǔ)效率的十倍提升。
研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)了有趣的現(xiàn)象:模型采用不同清晰度存儲(chǔ)圖像的方式,與人類記憶的遺忘曲線高度相似。新近信息以“4K HDR”格式存儲(chǔ),隨著時(shí)間推移自動(dòng)降級(jí)為480P格式,這種動(dòng)態(tài)調(diào)整機(jī)制或許能為提升模型上下文處理能力提供新思路。雖然目前尚未得出明確結(jié)論,但開源社區(qū)已開始圍繞這一方向展開探索。
該項(xiàng)目的開源特性加速了技術(shù)演進(jìn),其訓(xùn)練數(shù)據(jù)融合了華為Wukong數(shù)據(jù)集,文字生成借助百度PaddleOCR,圖像特征提取采用meta開源的SAM模型,視覺語義理解則整合了OpenAI的CLIP技術(shù)。這種跨機(jī)構(gòu)的技術(shù)協(xié)作,最終催生出能夠“用圖像思考”的新型AI架構(gòu),為多模態(tài)大模型的發(fā)展開辟了全新路徑。











