百度智能云千帆平臺近日宣布,其自主研發的全新視覺理解大模型Qianfan-VL正式開源,并同步推出3B、8B、70B三個參數規模的版本。該系列模型專為企業級多模態應用場景設計,在基礎通用能力的基礎上,針對OCR識別、教育垂直領域等高頻需求進行了深度優化,旨在為不同規模的企業和開發者提供更高效的視覺理解解決方案。
Qianfan-VL系列模型的開發依托于百度自研的昆侖芯P800芯片,該芯片為模型提供了強大的算力支持,能夠高效處理海量數據與復雜算法。模型研發團隊基于開源模型進行二次開發,并在昆侖芯P800上完成了全流程計算任務。這一技術組合不僅優化了計算效率,還使模型在通用和垂類任務評測中達到了行業領先水平。
在模型設計上,Qianfan-VL采用了先進的多模態架構,并通過持續預訓練和三大技術創新實現了領域增強的通用視覺-語言能力。其核心訓練方案包括創新的四階段策略,在保持通用能力的同時,顯著提升了領域特定任務的表現。團隊構建了面向多模態任務的大規模數據合成管線,覆蓋文檔識別、數學解題、圖表理解等核心任務,為模型訓練提供了高質量的數據支持。
Qianfan-VL系列模型具有三大顯著特點。首先,多尺寸版本設計滿足了不同場景的需求,3B、8B、70B三種規格可適配從輕量級到企業級的各類應用。其次,8B和70B模型支持通過特殊token激活思維鏈能力,能夠處理復雜圖表理解、視覺推理、數學解題等任務。最后,模型在OCR全場景識別和復雜版面文檔理解方面表現突出,可精準識別手寫體、數學公式、自然場景文字,并實現文檔智能問答與結構化解析。
在性能評測中,Qianfan-VL系列模型展現了卓越的實力。通用能力基準測試顯示,隨著參數規模的增加,模型在視覺理解、專業領域問答等任務中的表現顯著提升,尤其在ScienceQA等專業問答測試中表現突出。在OCR與文檔理解領域,模型在OCRBench等基準測試中成績優異,能夠自動分析版面元素,精準解析表格和圖表。數學解題方面,8B和70B模型在MathVista-mini、MathVision等測試中表現亮眼,可實現幾何推理、公式識別和分步求解。
實際應用案例進一步驗證了Qianfan-VL的實用性。在OCR識別場景中,模型可精準提取卡證票據信息并完成結構化處理;在數學推理場景中,能夠從復雜圖表中提取關鍵信息并進行數據分析;在文檔理解場景中,可自動解析表格和圖表,實現智能問答。模型還可應用于圖表分析、視頻理解等領域,展現出廣泛的適應性。
目前,Qianfan-VL系列模型已全面開源。即日起至10月10日,用戶可在百度智能云千帆平臺免費體驗8B和70B版本。模型的相關資源包括Blog、GitHub主頁、Hugging Face頁面以及技術報告,用戶可通過登錄平臺選擇Qianfan-VL-8B或70B進行在線測試,或訪問GitHub獲取詳細技術文檔。