Mistral AI 最近發(fā)布了其最新版本的文檔識別技術(shù) ——Mistral OCR3,標志著文檔處理領(lǐng)域的重大進步。該技術(shù)在處理各類文檔時展現(xiàn)了卓越的準確性和高效性,特別是在表格、掃描文檔、復雜表格以及手寫識別方面,相較于其前一版本 Mistral OCR2,整體表現(xiàn)提升了74%。
Mistral OCR3的設(shè)計宗旨在于從多種類型的文檔中提取文本和嵌入式圖像,以實現(xiàn)極高的準確度和出色的性能。它不僅支持 Markdown 輸出,還能夠基于 HTML 重構(gòu)表格,幫助下游系統(tǒng)更好地理解文檔的內(nèi)容和結(jié)構(gòu)。與市面上許多同類產(chǎn)品相比,Mistral OCR3體積小巧且價格合理,每1000頁的處理費用僅為2美元,通過批量 API 更能享受50% 的折扣,最終價格低至每1000頁僅1美元。
為了確保產(chǎn)品的準確性,Mistral OCR3引入了更具挑戰(zhàn)性的內(nèi)部基準,專注于真實業(yè)務場景中的表現(xiàn)。與前幾代 OCR 模型相比,該技術(shù)在處理手寫識別、表單、掃描及復雜文檔等方面進行了顯著升級,適應了多種文檔類型的需求。
Mistral OCR3特別適合高容量企業(yè)級流程以及交互式文檔工作流程。開發(fā)者可以通過該技術(shù)將文本和圖像提取為 Markdown 格式,自動解析發(fā)票、合規(guī)表格等各類文檔,并實現(xiàn)手寫或歷史文件的數(shù)字化處理。目前,早期客戶已經(jīng)在發(fā)票處理、公司檔案數(shù)字化以及技術(shù)報告文本提取等方面取得了積極成果。
IDC 的研究總監(jiān)蒂姆?勞指出,OCR 技術(shù)是實現(xiàn)生成式人工智能和智能體人工智能的重要基礎(chǔ)。能夠高效提取高保真度文本和嵌入式圖像的組織,將有機會釋放數(shù)據(jù)價值,從而在競爭中獲得優(yōu)勢。
劃重點:












