百度近日在開源平臺Hugging Face正式推出新一代光學字符識別方案PP-OCRv5,該模型針對大型視覺語言模型(VLMs)在文本定位精度和計算效率方面的短板進行專項優化,為輕量化OCR應用提供全新解決方案。
作為模塊化設計的雙階段模型,PP-OCRv5通過獨立優化文本檢測與識別流程,突破了傳統VLMs在復雜場景下的邊界框定位難題。其核心架構包含四大功能模塊:圖像預處理系統可自動校正拍攝角度與畸變;高精度檢測器能精準定位文本行坐標;方向分類器確保文字正向排列;最終識別模塊將圖像像素轉化為可編輯文本。這種解耦式設計使模型在保持0.07B參數量的同時,實現了移動端與邊緣設備的實時處理能力。
性能測試顯示,該模型移動版本在英特爾Xeon Gold 6271C處理器上可達每秒370字符的處理速度,在中文手寫體、印刷體及英文、日文、拼音混合場景中,識別準確率顯著優于Gemini 2.5 Pro、Qwen2.5-VL等通用VLM模型。其特有的邊界框優化算法,可將文本定位誤差控制在像素級,這對財務報表、法律文書等結構化數據提取具有關鍵價值。
語言支持方面,模型內置簡體中文、繁體中文、英文、日文四大文字體系的識別引擎,同時通過擴展模塊兼容超過40種國際語言。研發團隊特別針對中文多字體、多排版特性進行優化,在古籍掃描、票據識別等垂直場景中展現出獨特優勢。
目前開發者可通過Hugging Face平臺獲取完整模型包,包含預訓練權重、推理代碼及場景化部署指南。該方案特別適用于移動端文檔掃描、智能辦公、工業檢測等對延遲敏感的場景,其輕量化特性可使嵌入式設備在不增加硬件成本的前提下,實現專業級OCR性能。