近日,一款名為DeepSeek-OCR的開源模型在AI領(lǐng)域掀起熱議,其獨特的視覺壓縮技術(shù)被硅谷科技圈盛贊為"AI的JPEG時刻",甚至有觀點認為該模型揭開了谷歌Gemini核心技術(shù)的神秘面紗。
這款30億參數(shù)的輕量級模型,通過"上下文光學(xué)壓縮"技術(shù)實現(xiàn)了對長文本處理的革命性突破。研究團隊將海量文字信息編碼為高密度視覺token,使模型在保持97%解碼準確率的同時,將計算資源消耗降低至傳統(tǒng)方法的1/10。即便在20倍壓縮率下,模型仍能維持60%的準確率,這種"四兩撥千斤"的效果引發(fā)學(xué)術(shù)界廣泛關(guān)注。
技術(shù)實現(xiàn)層面,DeepSeek-OCR采用雙階段編碼架構(gòu):前端通過SAM-base模型進行局部特征提取,生成4096個基礎(chǔ)token;中段16倍卷積壓縮器將token數(shù)量銳減至256個;后端CLIP-large模型完成全局語義理解。這種"先分解后聚合"的設(shè)計,使單塊A100-40G GPU每日可生成20萬頁訓(xùn)練數(shù)據(jù),效率較傳統(tǒng)方法提升百倍。
在OmniDocBench基準測試中,該模型展現(xiàn)出驚人優(yōu)勢:僅用100個視覺token即超越GOT-OCR2.0的256token方案;400token時與前SOTA模型持平;800token時性能遠超使用7000token的MinerU2.0。這種"以小博大"的特性,使其在GitHub上線后迅速斬獲3300星標,HuggingFace熱度榜沖至第二。
研究團隊提出的"光學(xué)遺忘"機制更具創(chuàng)新性。通過模擬人類記憶的衰退過程,將近期記憶編碼為高分辨率圖像(多token保留細節(jié)),遠期記憶壓縮為低分辨率圖像(少token實現(xiàn)遺忘)。這種動態(tài)資源分配方案,為構(gòu)建無限上下文窗口提供了新思路,有望解決傳統(tǒng)大模型在處理超長文本時的算力爆炸問題。
該成果背后是三位低調(diào)科學(xué)家的跨界合作:主導(dǎo)過GOT-OCR2.0開發(fā)的Haoran Wei,參與DeepSeek R1/V3研發(fā)的Yaofeng Sun,以及谷歌學(xué)術(shù)近萬引的李宇琨。三人將視覺壓縮與語言模型深度融合的技術(shù)路徑,被AI教父卡帕西評價為"讓圖像成為更優(yōu)的LLM輸入載體"的突破性嘗試。
目前,這項研究已在學(xué)術(shù)圈引發(fā)連鎖反應(yīng)。多位專家指出,這種統(tǒng)一視覺與語言的壓縮范式,可能成為通往通用人工智能的關(guān)鍵路徑之一。隨著訓(xùn)練數(shù)據(jù)生成效率的指數(shù)級提升,輕量級模型挑戰(zhàn)萬億參數(shù)巨頭的時代或許已經(jīng)來臨。











