百度智能云千帆團隊近日宣布,正式推出并全面開源新一代視覺理解模型Qianfan-VL。該系列模型包含3B、8B、70B三種參數規格,專為企業級多模態應用場景設計,通過深度優化實現了卓越的視覺處理性能。
基于開源框架開發的Qianfan-VL,依托百度自研的昆侖芯P800硬件完成全流程訓練。強大的算力支撐使模型能夠高效處理復雜數據結構,尤其在光學字符識別(OCR)和教育領域應用中展現出顯著優勢。研發團隊針對行業高頻需求進行了專項優化,使模型在實際部署中具備更強的適應性。
該模型系列呈現三大核心特性:其一,提供多維度參數選擇,3B輕量級模型適配移動端部署,8B和70B中大型模型可滿足復雜業務需求;其二,8B及以上版本具備推理能力,通過特殊標識符激活后可處理圖表解析、視覺推理等高階任務;其三,在文檔理解領域實現突破性進展,不僅能精準識別手寫字體和復雜排版,還可進行結構化信息提取。
基準測試數據顯示,Qianfan-VL在視覺理解、專業問答等任務中均取得優異成績。特別是在OCR與文檔分析場景,模型展現出全場景識別能力和復雜文檔解析水平,為企業級應用提供了高精度解決方案。數學解題測試中,8B和70B版本通過融合視覺信息與外部知識,在復雜推理任務中表現出色。
在實際應用層面,該模型已具備商業落地價值。其數據分析功能可自動提取關鍵信息,輔助企業進行智能化決策。教育領域的應用測試表明,模型能有效解析教材圖表、作業題目等教學素材,為個性化學習提供技術支撐。
目前,Qianfan-VL已開放技術文檔與代碼倉庫。開發者可通過官方渠道獲取模型架構說明、訓練方法及部署指南,項目地址:https://github.com/baidubce/Qianfan-VL。更多技術細節可參考官方介紹頁面:https://baidubce.github.io/Qianfan-VL/