智源研究院攜手上海交通大學等科研機構,近期震撼發布了Video-XL-2,一款專為超長視頻理解設計的新一代模型。這一創新成果標志著長視頻理解技術在開源領域邁入了一個全新的里程碑,為多模態大模型在視頻內容深度解析的道路上鋪設了堅實的基石。
Video-XL-2的技術架構匠心獨運,融合了視覺編碼器、動態Token合成模塊(DTS)及大語言模型(LLM)三大核心組件。其視覺編碼器采用SigLIP-SO400M,能夠逐幀解析視頻,將每一幀圖像轉化為高維視覺特征。DTS模塊則負責整合這些特征,捕捉其時序動態,提煉出更具意義的視覺信息。這些信息經過平均池化與多層感知機(MLP)的處理,與文本嵌入空間實現精準對齊,最終由Qwen2.5-Instruct大語言模型進行深度理解與推理。
在訓練策略上,Video-XL-2采用了循序漸進的四階段方法。前兩階段側重于利用圖像與視頻文本對,初步訓練DTS模塊并實現跨模態對齊。第三階段引入更豐富、更高質量的圖像與視頻描述數據,為模型打下堅實的視覺理解基礎。進入第四階段,模型在大規模、多樣化且高質量的圖像與視頻指令數據上進行精細調優,使其視覺理解能力得到質的飛躍,能夠精準響應復雜的視覺指令。
為了提升效率,Video-XL-2還精心設計了效率優化策略。通過分段式預裝填策略(Chunk-based Prefilling),將超長視頻切割成多個連續片段,每個片段內部采用稠密注意力機制編碼,片段間則通過時間戳傳遞上下文,顯著降低了計算與顯存成本。同時,雙粒度KV解碼機制(Bi-granularity KV Decoding)允許模型根據任務需求,靈活加載關鍵片段的完整KVs,而對次要片段則加載稀疏KVs,有效縮短了推理窗口,提升了解碼效率。
在實際應用中,Video-XL-2展現出了驚人的性能。在MLVU、VideoMME和LVBench等長視頻評測基準上,它超越了所有現有輕量級開源模型,達到了行業領先水平。尤其在MLVU和LVBench上,Video-XL-2的表現甚至逼近或超越了參數規模高達720億的大型模型,如Qwen2.5-VL-72B和LLaVA-Video-72B。在時序定位任務中,它在Charades-STA數據集上也取得了卓越成績,驗證了其在多模態視頻理解領域的廣泛適用性。
Video-XL-2在處理超長視頻方面同樣表現出色。在消費級顯卡(如RTX3090/4090)上,它能處理長達千幀的視頻;而在高性能顯卡(如A100/H100)上,更是支持萬幀級視頻輸入,遠超當前主流開源模型。與VideoChat-Flash和初代Video-XL相比,Video-XL-2不僅大幅提升了視頻處理長度,還有效降低了資源需求。
在速度方面,Video-XL-2同樣令人矚目。它僅需12秒即可完成2048幀視頻的預填充,且預填充時間與輸入幀數呈近似線性增長,展現了極強的可擴展性。相比之下,Video-XL與VideoChat-Flash在處理長視頻時的效率明顯不及Video-XL-2。
憑借卓越的視頻理解能力和高效處理性能,Video-XL-2在影視內容分析、監控視頻異常檢測、影視作品內容總結及游戲直播內容分析等多個實際應用場景中展現出巨大潛力。它不僅能夠快速準確地理解電影情節、回答相關問題,還能在監控視頻中及時發現異常行為并發出預警。
目前,Video-XL-2的模型權重已全面向公眾開放,項目主頁、模型鏈接及倉庫鏈接均已發布,為更多實際場景的應用提供了可能,進一步推動了長視頻理解技術的發展。
項目主頁:https://unabletousegit.github.io/video-xl2.github.io/
模型hf鏈接:https://huggingface.co/BAAI/Video-XL-2
倉庫鏈接:https://github.com/VectorSpaceLab/Video-XL