通義實驗室的自然語言智能團隊近期宣布了一項重大突破,他們成功研發并開源了名為VRAG-RL的多模態推理框架。這一創新框架專為解決真實業務場景中,AI如何從多樣化的視覺語言中提取關鍵信息并進行精確推理而設計。
在AI領域,從復雜的視覺文檔知識庫中檢索并推理關鍵信息一直是個難題。傳統的檢索增強型生成(RAG)方法在處理富含視覺信息的內容時表現欠佳,尤其是面對圖像、圖表等復雜視覺元素時更是力不從心。現有的視覺RAG方法受限于固定的檢索-生成流程,難以深度挖掘視覺信息中的核心知識。
為了克服這些挑戰,VRAG-RL框架在多個維度上實現了創新。首先,它通過強化學習訓練多模態智能體,引入了多種視覺感知動作,如區域選擇、裁剪和縮放等。這些動作使模型能夠從宏觀到微觀逐步聚焦信息密集區域,精確捕捉關鍵視覺信息,從而提高了對視覺信息的理解能力和檢索效率。
在訓練策略上,VRAG-RL采用了多專家采樣方法,結合大規模模型的推理能力和專家模型的精確標注,使模型能夠學習到更高效的視覺感知策略。同時,該框架還引入了一種細粒度的獎勵機制,綜合考慮檢索效率、模式一致性和生成質量,引導模型在與搜索引擎的交互中不斷優化檢索與推理路徑,實現了檢索與推理的雙向驅動和閉環優化。
VRAG-RL還引入了業界前沿的GRPO算法,通過本地部署搜索引擎模擬真實應用場景,實現了搜索引擎調用的零成本,極大地提高了模型訓練的效率和泛化能力。這使得VRAG-RL能夠在不同領域和不同類型的視覺任務中均表現出色。
實驗數據表明,VRAG-RL在多個視覺語言基準數據集上的性能表現均顯著優于現有方法。它涵蓋了從單跳到多跳推理、從純文本理解到圖表識別和復雜布局解析等多種視覺豐富場景。無論是傳統的基于提示(prompt-based)方法還是基于強化學習的方法,VRAG-RL都展現出了更為卓越的綜合性能。
VRAG-RL還支持多輪交互,能夠在推理階段逐步聚焦于信息密集區域,實現從宏觀到微觀的信息獲取。通過優化檢索效率和推理路徑,VRAG-RL在保持高效率的同時,顯著提升了模型在視覺任務上的性能表現。
對于感興趣的開發者而言,VRAG-RL的開源代碼可在Github上找到,地址為github.com/Alibaba-NLP/VRAG。這一創新成果無疑將為AI領域的發展注入新的活力。