近日,科技領(lǐng)域迎來(lái)一項(xiàng)重要突破——DeepSeek團(tuán)隊(duì)在GitHub平臺(tái)正式開(kāi)源其最新研發(fā)的DeepSeek-OCR模型,該成果聚焦于光學(xué)字符識(shí)別技術(shù)的革新應(yīng)用。
作為針對(duì)長(zhǎng)文本場(chǎng)景設(shè)計(jì)的創(chuàng)新方案,該模型采用約30億參數(shù)的輕量化架構(gòu),首次系統(tǒng)驗(yàn)證了"光學(xué)二維映射壓縮"技術(shù)在復(fù)雜上下文處理中的可行性。研究團(tuán)隊(duì)通過(guò)模塊化設(shè)計(jì),將核心功能拆解為視覺(jué)編碼與文本解碼兩大組件。
在視覺(jué)處理環(huán)節(jié),DeepEncoder模塊展現(xiàn)出獨(dú)特優(yōu)勢(shì)。該組件能夠在接收高分辨率圖像輸入時(shí),自動(dòng)維持低激活狀態(tài),通過(guò)動(dòng)態(tài)壓縮算法將視覺(jué)信息轉(zhuǎn)化為精簡(jiǎn)的token序列。這種設(shè)計(jì)既保證了信息完整性,又顯著降低了計(jì)算資源消耗。
解碼部分則由改進(jìn)型的DeepSeek3B-MoE-A570M架構(gòu)承擔(dān)。該解碼器通過(guò)混合專家系統(tǒng)(MoE)架構(gòu),實(shí)現(xiàn)了對(duì)視覺(jué)token的高效解析與文本重構(gòu)。實(shí)驗(yàn)表明,當(dāng)視覺(jué)token與文本token的比例控制在1:10以內(nèi)時(shí),模型識(shí)別準(zhǔn)確率可達(dá)97%;即使壓縮比例提升至20倍,仍能保持約60%的識(shí)別精度。
技術(shù)團(tuán)隊(duì)特別指出,該模型的創(chuàng)新之處在于建立了視覺(jué)壓縮與文本生成的動(dòng)態(tài)平衡機(jī)制。通過(guò)控制token壓縮比率,系統(tǒng)能夠在信息保留與計(jì)算效率間取得最優(yōu)解,這種特性為大語(yǔ)言模型的記憶管理提供了全新研究視角。
目前,開(kāi)源版本已包含完整的訓(xùn)練框架與推理代碼,支持多種分辨率的文檔圖像處理。研究團(tuán)隊(duì)表示,后續(xù)將重點(diǎn)優(yōu)化極端壓縮場(chǎng)景下的性能表現(xiàn),并探索該技術(shù)在多模態(tài)大模型中的擴(kuò)展應(yīng)用。











