昆侖萬維近日宣布推出輕量級多模態(tài)智能體Skywork R1V4-Lite,這款模型突破傳統(tǒng)視覺模型局限,將圖像操作、深度推理與任務(wù)規(guī)劃能力整合于統(tǒng)一架構(gòu)中,為開放式交互場景提供全新解決方案。其核心突破在于通過"圖像操作×深度推理"的交織訓(xùn)練范式,使輕量級模型也能實(shí)現(xiàn)接近頂級閉源模型的性能表現(xiàn)。
在真實(shí)場景應(yīng)用中,該模型展現(xiàn)出突破性能力:用戶僅需拍攝照片,系統(tǒng)即可自動(dòng)完成圖像旋轉(zhuǎn)校正、多級放大讀取模糊文字、繪制幾何輔助線驗(yàn)證空間關(guān)系等復(fù)雜操作。例如在電商場景中,模型能通過商品圖片自動(dòng)溯源,提供跨平臺比價(jià)信息與詳細(xì)參數(shù)說明。這種"即時(shí)多模態(tài)洞察"能力,使模型從被動(dòng)響應(yīng)轉(zhuǎn)向主動(dòng)探索,形成"觀察-操作-推理-驗(yàn)證"的完整閉環(huán)。
技術(shù)評測數(shù)據(jù)顯示,Skywork R1V4-Lite在8個(gè)多模態(tài)基準(zhǔn)測試中整體超越Gemini 2.5 Flash,其中5項(xiàng)任務(wù)達(dá)到Gemini 2.5 Pro水平。在mm-search和FVQA等深度研究任務(wù)中,分別以66分和67分顯著領(lǐng)先對手。這種性能優(yōu)勢源于其獨(dú)特的訓(xùn)練架構(gòu):通過構(gòu)建推理腳手架實(shí)現(xiàn)跨模態(tài)知識融合,將搜索結(jié)果與視覺推理形成閉環(huán)驗(yàn)證,使模型具備跨領(lǐng)域知識擴(kuò)展能力。
該模型的創(chuàng)新性體現(xiàn)在三大技術(shù)突破:首先,開發(fā)出主動(dòng)式視覺操作系統(tǒng),能根據(jù)任務(wù)需求自動(dòng)執(zhí)行裁切、旋轉(zhuǎn)、放大等操作,構(gòu)建可回溯的視覺行動(dòng)鏈;其次,集成多模態(tài)深度研究模塊,支持聯(lián)網(wǎng)搜索與外部工具調(diào)用,形成"搜索-推理-驗(yàn)證"的增強(qiáng)循環(huán);最后,實(shí)現(xiàn)視覺驅(qū)動(dòng)的任務(wù)規(guī)劃能力,可將單張圖像轉(zhuǎn)化為可執(zhí)行的多輪任務(wù)鏈,包含任務(wù)分解、工具選擇、參數(shù)生成等系統(tǒng)級規(guī)劃功能。
工程優(yōu)化方面,模型在參數(shù)規(guī)模、響應(yīng)速度與處理效率間取得平衡。實(shí)測數(shù)據(jù)顯示,其響應(yīng)延遲僅為Gemini 2.5 Pro的1/19,Token吞吐量達(dá)后者2倍,端到端任務(wù)完成速度比Gemini 2.5 Flash快1.7倍。這種特性使其特別適合移動(dòng)端部署、實(shí)時(shí)問答、視覺檢索等高并發(fā)場景,在保持極低運(yùn)營成本的同時(shí),支持每秒數(shù)千次的推理請求。
昆侖萬維技術(shù)團(tuán)隊(duì)透露,Skywork R1V4-Lite的成功驗(yàn)證了"能力密度優(yōu)先"的開發(fā)理念。通過優(yōu)化模型結(jié)構(gòu)與訓(xùn)練范式,在70億參數(shù)規(guī)模下實(shí)現(xiàn)了傳統(tǒng)大模型需要千億參數(shù)才能達(dá)到的功能集成度。這種技術(shù)路線不僅降低了部署門檻,更為多模態(tài)智能體的規(guī)模化應(yīng)用開辟了新路徑。據(jù)悉,其升級版R1V4-Pro已進(jìn)入最終測試階段,將在多模態(tài)交互復(fù)雜度與工具調(diào)用深度上實(shí)現(xiàn)進(jìn)一步突破。











