百度智能云千帆平臺近日迎來重要突破——全新視覺理解大模型Qianfan-VL正式開源,并同步推出3B、8B、70B三個參數規模的版本。這款專為企業級多模態應用場景設計的模型,在OCR識別、文檔理解等產業高頻需求領域實現了專項優化,其8B和70B版本即日起至10月10日可在千帆平臺免費體驗。
研發團隊采用四階段創新訓練策略,構建了覆蓋文檔識別、數學解題等核心任務的高精度數據合成管線。基于百度自研的昆侖芯P800芯片,該模型實現了單任務5000卡規模的并行計算能力,在視覺理解通用能力評測中展現出顯著優勢。從ScienceQA專業問答到RefCOCO多模態任務,模型性能隨參數規模提升呈現良好Scaling趨勢,在物體識別、關聯分析等維度達到行業領先水平。
針對企業級應用痛點,模型特別強化了三大核心能力:其一,提供3B、8B、70B多尺寸選擇,滿足不同規模企業的部署需求;其二,8B和70B版本通過特殊token激活思維鏈功能,可處理復雜圖表分析、視覺推理等場景;其三,在OCR全場景識別方面,不僅能精準解析手寫體、數學公式,還能對卡證票據進行結構化提取。在文檔理解領域,模型可自動分析版面元素,實現表格圖表解析與智能問答。
基準測試數據顯示,Qianfan-VL在數學解題領域表現尤為突出。8B和70B版本通過融合視覺與文本推理數據,在MathVista-mini等測試中取得優異成績,可實現幾何推理、公式識別等復雜任務的分步求解。在文檔處理場景,模型在OCRBench等專業測試中的準確率隨參數規模提升持續優化,為金融、教育等行業的文檔智能化提供了高精度解決方案。
技術架構層面,研發團隊構建了業界領先的分布式計算系統。通過創新的并行策略與算子優化,昆侖芯P800芯片組成功支撐起超大規模模型訓練,使數據處理效率得到顯著提升。這種軟硬協同的創新模式,不僅優化了計算資源利用率,更為模型在垂類任務中的性能突破奠定了基礎。
目前,該模型已在OCR識別、文檔解析等場景形成典型應用案例。除已展示的票據結構化提取、復雜版面分析等功能外,模型在圖表數據可視化、視頻內容理解等延伸領域也展現出良好適應性。隨著開源版本的發布,百度智能云千帆平臺正通過技術賦能推動AI在產業界的深度落地。