云從科技攜手上海交通大學、香港科技大學(廣州)等科研力量,近日共同推出全球首個面向“空對空”場景的百萬級多模態(tài)反無人機視覺追蹤基準UAV-Anti-UAV,并同步發(fā)布基于Mamba架構(gòu)的基線模型MambaSTS。這一成果標志著我國在低空安全技術(shù)與多模態(tài)大模型融合領(lǐng)域?qū)崿F(xiàn)關(guān)鍵突破,為反無人機技術(shù)的實戰(zhàn)化應用注入核心動力。
隨著低空經(jīng)濟加速崛起,無人機安全管控已成為全球技術(shù)競爭的焦點。傳統(tǒng)反無人機系統(tǒng)主要針對“空對地”或“地對空”場景設(shè)計,面對追蹤者與目標均處于高速飛行狀態(tài)的“空中對抗”場景時,往往因雙重動態(tài)干擾、目標尺度劇烈變化、運動模糊等問題導致追蹤失效。UAV-Anti-UAV基準的誕生,恰好填補了這一領(lǐng)域的技術(shù)空白。
該基準構(gòu)建了行業(yè)首個大規(guī)模標準化測試平臺,數(shù)據(jù)集包含1810個視頻序列、總幀數(shù)超105萬幀,覆蓋近9.85小時的追蹤場景。數(shù)據(jù)集中不僅包含固定翼、多旋翼、垂直起降等五大類無人機目標,還創(chuàng)新性地引入自然語言描述標注,支持視覺-語言跨模態(tài)追蹤研究。更值得關(guān)注的是,數(shù)據(jù)集標注了快速運動、光照突變等15種高難度屬性,平均相對速度達0.79,遠超現(xiàn)有主流數(shù)據(jù)集,其包含的微小目標與劇烈尺度變化,被業(yè)界稱為反無人機追蹤領(lǐng)域的“終極挑戰(zhàn)”。
為攻克這一技術(shù)難題,研究團隊開發(fā)的MambaSTS模型采用混合架構(gòu)設(shè)計,通過空間、時間、語義三重學習機制實現(xiàn)精準追蹤。模型首先利用分層視覺Transformer提取多尺度空間特征,再借助預訓練LanguageMamba深度挖掘文本語義信息,即使在目標模糊的場景中也能保持高識別率。其獨創(chuàng)的時間Token傳播機制,通過Mamba的選擇性掃描功能,可留存歷史幀中的目標軌跡與外觀特征,即使目標被短暫遮擋也能快速重新鎖定。
針對視頻追蹤的實時性需求,模型特別優(yōu)化為單向掃描機制,顯著提升處理效率。在50個主流深度追蹤算法的對比評測中,MambaSTS在AUC、mACC等全部5項核心指標上均位居榜首,較第二名領(lǐng)先6.6個百分點。更令人矚目的是,該模型在傳統(tǒng)“空對地”“地對空”數(shù)據(jù)集上同樣展現(xiàn)出頂尖性能,證明其具備跨場景的強大泛化能力。
業(yè)內(nèi)專家指出,UAV-Anti-UAV基準的發(fā)布為行業(yè)提供了統(tǒng)一的技術(shù)評測標準,將推動反無人機技術(shù)加速迭代;MambaSTS模型的技術(shù)突破,則為安防監(jiān)控、空域管理、重大活動安保等場景提供了高效解決方案。隨著低空經(jīng)濟規(guī)模的持續(xù)擴大,這項成果有望在保障低空安全領(lǐng)域發(fā)揮關(guān)鍵作用。











