滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

DeepSeek新模型受硅谷熱捧：以視覺壓縮文字，或為AI記憶機制開新徑

時間：2025-10-22 04:32:05 來源：快訊編輯：快訊 IP：北京 發(fā)表評論無障礙通道

近日，一款名為DeepSeek-OCR的開源模型在AI領(lǐng)域掀起熱議，其獨特的視覺壓縮技術(shù)被硅谷科技圈盛贊為"AI的JPEG時刻"，甚至有觀點認為該模型揭開了谷歌Gemini核心技術(shù)的神秘面紗。

這款30億參數(shù)的輕量級模型，通過"上下文光學(xué)壓縮"技術(shù)實現(xiàn)了對長文本處理的革命性突破。研究團隊將海量文字信息編碼為高密度視覺token，使模型在保持97%解碼準確率的同時，將計算資源消耗降低至傳統(tǒng)方法的1/10。即便在20倍壓縮率下，模型仍能維持60%的準確率，這種"四兩撥千斤"的效果引發(fā)學(xué)術(shù)界廣泛關(guān)注。

技術(shù)實現(xiàn)層面，DeepSeek-OCR采用雙階段編碼架構(gòu)：前端通過SAM-base模型進行局部特征提取，生成4096個基礎(chǔ)token；中段16倍卷積壓縮器將token數(shù)量銳減至256個；后端CLIP-large模型完成全局語義理解。這種"先分解后聚合"的設(shè)計，使單塊A100-40G GPU每日可生成20萬頁訓(xùn)練數(shù)據(jù)，效率較傳統(tǒng)方法提升百倍。

在OmniDocBench基準測試中，該模型展現(xiàn)出驚人優(yōu)勢：僅用100個視覺token即超越GOT-OCR2.0的256token方案；400token時與前SOTA模型持平；800token時性能遠超使用7000token的MinerU2.0。這種"以小博大"的特性，使其在GitHub上線后迅速斬獲3300星標，HuggingFace熱度榜沖至第二。

研究團隊提出的"光學(xué)遺忘"機制更具創(chuàng)新性。通過模擬人類記憶的衰退過程，將近期記憶編碼為高分辨率圖像（多token保留細節(jié)），遠期記憶壓縮為低分辨率圖像（少token實現(xiàn)遺忘）。這種動態(tài)資源分配方案，為構(gòu)建無限上下文窗口提供了新思路，有望解決傳統(tǒng)大模型在處理超長文本時的算力爆炸問題。

該成果背后是三位低調(diào)科學(xué)家的跨界合作：主導(dǎo)過GOT-OCR2.0開發(fā)的Haoran Wei，參與DeepSeek R1/V3研發(fā)的Yaofeng Sun，以及谷歌學(xué)術(shù)近萬引的李宇琨。三人將視覺壓縮與語言模型深度融合的技術(shù)路徑，被AI教父卡帕西評價為"讓圖像成為更優(yōu)的LLM輸入載體"的突破性嘗試。

目前，這項研究已在學(xué)術(shù)圈引發(fā)連鎖反應(yīng)。多位專家指出，這種統(tǒng)一視覺與語言的壓縮范式，可能成為通往通用人工智能的關(guān)鍵路徑之一。隨著訓(xùn)練數(shù)據(jù)生成效率的指數(shù)級提升，輕量級模型挑戰(zhàn)萬億參數(shù)巨頭的時代或許已經(jīng)來臨。

更多>同類資訊

Dexmal原力靈機獲近10億融資阿里蔚來資本助力具身智能研發(fā)落地

11-17

阿里巴巴“通義”App升級更名“千問”，AI消費級市場迎新競爭者

11-17

蘋果前COO杰夫?威廉姆斯退休，庫克盛贊其為蘋果發(fā)展立下汗馬功勞

11-15

中國通號自主研發(fā)系統(tǒng)助力青藏鐵路構(gòu)建無人機立體防護網(wǎng)

11-15

十二載輪回落幕，生肖酒新篇開啟：文化與市場博弈下的新征程

11-15

嵐圖泰山18日上市，45萬起售，大六座SUV市場或迎新格局

11-15

存儲芯片價格瘋漲，手機廠商采購暫緩，中高端機型或迎漲價潮

11-15

阿里通義App煥新升級更名為千問 5.0.0攜三大核心能力對標ChatGPT

11-15

中國AI務(wù)實突圍：從DeepSeek到MiniMax，誰將打破OpenAI神話？

而在此前提下，再疊加算力可控和訓(xùn)練成本低等優(yōu)勢，以MiniMax為代表的中國AI模型便正好踩中了一個非常罕見的時間窗口——在OpenAI忙著追逐AGI和構(gòu)建未來超級系統(tǒng)的時間縫隙中，國內(nèi)AI正好可以在短期的…

11-15

“天衍-287”超導(dǎo)量子計算機問世，處理特定問題速度遠超超級計算機

11月14日，中國電信量子研究院發(fā)布消息，搭載“祖沖之三號”同款芯片的超導(dǎo)量子計算機“天衍-287”完成搭建。據(jù)介紹，其擁有105個數(shù)據(jù)比特和182個耦合比特，由中電信量子集團與科大國盾量子技術(shù)股份有限公司聯(lián)…

11-15

AI浪潮涌動烏鎮(zhèn)！相芯科技攜全鏈條數(shù)字人成果亮相世界互聯(lián)網(wǎng)大會

11-15

阿里巴巴“通義”升級更名“千問”，消費級AI戰(zhàn)場再添強勁競爭者

根據(jù)官方消息，“千問”定位為阿里旗下最重要的大模型應(yīng)用入口，其核心能力基于阿里自研的大模型體系Qwen（千問）。分析人士指出，阿里此前在To B市場和模型研發(fā)側(cè)擁有技術(shù)基礎(chǔ)，但在消費端應(yīng)用分發(fā)層面還未形成…

11-15

阿里巴巴“通義”App升級更名“千問”，AI戰(zhàn)略轉(zhuǎn)向消費級市場新布局

根據(jù)官方消息，“千問”定位為阿里旗下最重要的大模型應(yīng)用入口，其核心能力基于阿里自研的大模型體系Qwen（千問）。分析人士指出，阿里此前在To B市場和模型研發(fā)側(cè)擁有技術(shù)基礎(chǔ)，但在消費端應(yīng)用分發(fā)層面還未形成…

11-15

圖靈測試已落伍？奧特曼攜手量子計算之父提出新標準衡量AI智能

【新智元導(dǎo)讀】隨著現(xiàn)在的主流大模型都能輕松通過圖靈測試，這個持續(xù)了數(shù)十年的標準開始逐漸過時。奧特曼和量子計算之父David Deutsch討論得出了一個新的圖靈測試2.0標準，可以更好地衡量究竟怎樣AI才…

11-15

AI賦能時代：普通人如何借力AI工具，實現(xiàn)個人能力的躍遷與進化？

11-15

點擊查看更多 +

全站最新

2025智能辦公本怎么選？這三款各具特色，精準匹配不同辦公學(xué)習(xí)場景需求

榮耀輸入法故障引熱議：深度合作“雙刃劍”，生態(tài)構(gòu)建需穩(wěn)中求進

星紀元ES攜手科大訊飛，以24.8萬預(yù)售價開啟智能出行新篇章

央視“第一發(fā)布”首迎車企長安馬自達EZ-60憑實力獲全球好車認證

科大訊飛AI學(xué)習(xí)機X3 5G：以科技之力，為孩子打造個性化高效學(xué)習(xí)新體驗

AI賦能聲學(xué)新體驗！科大訊飛iFLYSOUND重塑車載音效，開啟智慧聽享新篇章

熱門內(nèi)容

本欄最新

東風(fēng)奕派eπ007+深圳煥新登場：14萬級激光雷達加持，四驅(qū)轎跑新選擇

24.9萬起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標桿

東風(fēng)奕派兩周年獻禮，eπ007+攜四大優(yōu)勢登場，助力新能源賽道加速跑

東風(fēng)奕派兩周年獻禮：eπ007+攜四大優(yōu)勢登場，為年輕人出行注入新動力

東風(fēng)奕派eπ007+高能登場，以“奕派速度”為年輕人解鎖百萬級出行新體驗

嵐圖泰山來襲：外觀大氣內(nèi)飾豪華能否在高端SUV市場分一杯羹？

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

DeepSeek新模型受硅谷熱捧：以視覺壓縮文字，或為AI記憶機制開新徑

日本精品一区二区三区高清久久