百度飛槳團隊近期推出了PaddleOCR的最新版本——3.0版,并將其面向公眾開源。此次更新標志著PaddleOCR在文字識別技術上的又一次重大飛躍,特別是在識別精度、多語言支持、手寫體辨識以及復雜文檔解析方面,均實現了顯著提升。
自誕生以來,PaddleOCR憑借其前沿的學術算法與實際產業應用的緊密結合,贏得了學術界、產業界及研究機構的廣泛青睞,并已成功融入眾多知名開源項目中。新版本PaddleOCR3.0與飛槳框架3.0正式版完美兼容,不僅大幅提升了文字識別的準確性,還新增了對多種文字類型及手寫體的識別能力,完美契合了大模型應用對高精度文檔解析的嚴苛需求。
尤為PaddleOCR3.0引入了全場景文字識別模型PP-OCRv5,該模型能夠在一套體系下精準識別簡體中文、繁體中文、中文拼音、英文、日文五種文字,以及手寫體、豎排文本、拼音標注、生僻字等特殊文本場景。與上一代模型相比,PP-OCRv5的整體識別精度躍升了13個百分點,引領行業潮流。通過統一模型架構,PP-OCRv5簡化了部署流程,實現了識別速度與精度的雙重提升。
在文檔解析領域,PaddleOCR3.0推出了升級版的通用文檔解析方案PP-StructureV3。該方案在版面區域檢測、表格識別、公式識別等方面能力顯著增強,同時新增了圖表理解功能,并能恢復多欄閱讀的原始順序,輸出格式包括Markdown和JSON。在OmniDocBench基準測試中,PP-StructureV3力壓眾多開源及閉源方案,展現了其在多場景、多版式PDF文檔高精度解析方面的卓越實力。
PaddleOCR3.0還帶來了智能文檔理解方案PP-ChatOCRv4,該方案與文心大模型4.5Turbo深度融合,關鍵信息抽取精度較上一代提高了15個百分點。PP-ChatOCRv4巧妙融合了大模型與小模型的優勢,支持離線使用多模態文檔理解模型PP-DocBee2,能夠一站式解決版面分析、生僻字識別、多頁PDF處理、表格解析、印章識別等復雜文檔信息抽取難題。
PaddleOCR3.0的發布,彰顯了百度在OCR技術領域的持續創新能力,同時也為廣大開發者提供了功能更為強大、操作更為便捷的工具,助力他們加速推進AI應用的落地實施。感興趣的開發者可以訪問PaddleOCR的開源地址,獲取更多詳細信息。
開源地址:https://github.com/PaddlePaddle/PaddleOCR