近日,AI領(lǐng)域迎來(lái)一項(xiàng)引人矚目的技術(shù)突破——DeepSeek團(tuán)隊(duì)開源的DeepSeek-OCR模型憑借其獨(dú)特的視覺壓縮技術(shù),在GitHub上迅速斬獲超過(guò)4000個(gè)Star,引發(fā)全球開發(fā)者與科研人員的熱烈討論。該模型通過(guò)將文本轉(zhuǎn)換為視覺token的方式,實(shí)現(xiàn)了對(duì)長(zhǎng)文本的高效壓縮與處理,為解決大模型上下文效率問(wèn)題提供了全新思路。
技術(shù)核心在于視覺token的壓縮效率革新。傳統(tǒng)多模態(tài)模型中,視覺token通常僅用于處理圖像或無(wú)法用文字描述的內(nèi)容,因其空間占用遠(yuǎn)高于文本token。例如,一萬(wàn)英文單詞若轉(zhuǎn)換為文本token約需15000個(gè),而視覺token可能達(dá)到3萬(wàn)至6萬(wàn)個(gè)。但DeepSeek的研究表明,通過(guò)特殊壓縮算法,視覺token的效率可提升10倍,使得原本需要10000個(gè)單詞的文本,理論上僅需約1500個(gè)壓縮視覺token即可完整表示。
這一突破引發(fā)了關(guān)于人類認(rèn)知機(jī)制的聯(lián)想。研究指出,人類大腦在回憶文本內(nèi)容時(shí),往往依賴視覺記憶定位,如記住段落所在頁(yè)碼、位置等信息。這種生物機(jī)制與視覺token壓縮的思路不謀而合,但模型能否在壓縮視覺token的基礎(chǔ)上保持語(yǔ)言推理能力,仍是待解的疑問(wèn)。有研究者提出,過(guò)度依賴視覺表征可能削弱模型的語(yǔ)言表達(dá)能力,但若能平衡效率與性能,該技術(shù)或?qū)⒊蔀閿U(kuò)展模型上下文容量的關(guān)鍵路徑。
行業(yè)反響呈現(xiàn)兩極分化。支持者認(rèn)為,結(jié)合DeepSeek此前發(fā)布的稀疏注意力機(jī)制,該技術(shù)有望使大模型上下文窗口擴(kuò)展至千萬(wàn)級(jí)token。例如,用戶可將整個(gè)代碼庫(kù)或企業(yè)文檔集作為提示詞前綴輸入模型,通過(guò)緩存機(jī)制實(shí)現(xiàn)快速查詢,無(wú)需依賴外部搜索工具。紐約大學(xué)助理教授謝賽寧對(duì)此表示認(rèn)同,他曾在擴(kuò)散Transformer研究中探索過(guò)視覺與文本的融合路徑。
批評(píng)聲音則聚焦于技術(shù)原創(chuàng)性。有研究者指出,哥本哈根大學(xué)2022年發(fā)表的《Language Modelling with Pixels》已提出類似概念,其開發(fā)的PIXEL架構(gòu)通過(guò)將文本渲染為圖像,實(shí)現(xiàn)了跨語(yǔ)言的表征遷移。此后,CVPR 2023、NeurIPS 2024等會(huì)議陸續(xù)出現(xiàn)相關(guān)改進(jìn)研究,包括僅用像素處理圖像與語(yǔ)言的CLIPPO模型,以及利用視覺token擴(kuò)展文本上下文的多模態(tài)學(xué)習(xí)方案。
盡管存在爭(zhēng)議,DeepSeek-OCR的開源策略獲得廣泛認(rèn)可。技術(shù)社區(qū)迅速展開實(shí)踐探索,Django框架聯(lián)合創(chuàng)始人Simon Willison僅用4個(gè)提示詞便在英偉達(dá)Spark硬件上運(yùn)行該模型,耗時(shí)40分鐘;科技博主NiceKate AI則成功將其部署至Mac設(shè)備。這些案例顯示,該模型在工程實(shí)現(xiàn)上具有較高可行性。
值得關(guān)注的是,部分研究者認(rèn)為谷歌Gemini模型可能已應(yīng)用類似技術(shù)。其龐大的上下文窗口與優(yōu)秀的OCR性能,或源于視覺token壓縮的隱藏能力。但DeepSeek的完全開源策略,使任何團(tuán)隊(duì)均可驗(yàn)證并改進(jìn)這一技術(shù),這種透明度在商業(yè)競(jìng)爭(zhēng)中顯得尤為珍貴。
在Hacker News等平臺(tái),討論延伸至模型認(rèn)知能力的邊界。有用戶設(shè)想,若模型能像物理學(xué)家Hans Bethe般記憶海量數(shù)據(jù),將極大提升知識(shí)調(diào)用效率。例如,將整個(gè)元素周期表或代碼庫(kù)存入上下文窗口,可能徹底改變科研與編程模式。然而,這種“工作記憶”擴(kuò)展是否以犧牲語(yǔ)言表現(xiàn)為代價(jià),仍需更多實(shí)證研究。











