近期,科技界迎來了一項(xiàng)創(chuàng)新突破,蘋果公司攜手復(fù)旦大學(xué),共同推出了StreamBridge端側(cè)視頻大語言模型(Video-LLMs)框架。這一框架專為提升AI對直播流視頻的理解能力而設(shè)計(jì),旨在滿足機(jī)器人技術(shù)、自動(dòng)駕駛等領(lǐng)域?qū)?shí)時(shí)感知與響應(yīng)的迫切需求。
在以往,傳統(tǒng)的視頻大語言模型在處理視頻內(nèi)容時(shí),往往局限于靜態(tài)視頻,難以適應(yīng)需要即時(shí)反饋的復(fù)雜場景。尤其是在機(jī)器人操作和自動(dòng)駕駛等應(yīng)用中,AI系統(tǒng)需要迅速理解連續(xù)的直播視頻流,并據(jù)此作出準(zhǔn)確判斷。然而,現(xiàn)有的模型在處理這類任務(wù)時(shí),面臨著兩大核心挑戰(zhàn):一是如何在理解最新視頻片段的同時(shí),保留歷史視覺和對話上下文;二是如何實(shí)現(xiàn)模型的主動(dòng)監(jiān)控功能,使其能在沒有明確指令的情況下,自主輸出反饋。
為了克服這些難題,蘋果與復(fù)旦大學(xué)的科研團(tuán)隊(duì)聯(lián)手開發(fā)了StreamBridge框架。該框架采用創(chuàng)新的內(nèi)存緩沖區(qū)和輪次衰減壓縮策略,有效支持了長上下文的交互處理。這一設(shè)計(jì)使得模型能夠在處理實(shí)時(shí)視頻流時(shí),同時(shí)保留并有效利用歷史信息,從而提高了理解的準(zhǔn)確性和連貫性。
StreamBridge框架還引入了一個(gè)輕量化的獨(dú)立激活模型。這一模型能夠與現(xiàn)有的視頻大語言模型無縫集成,賦予了模型主動(dòng)響應(yīng)的能力。這意味著,即使在沒有明確指令的情況下,模型也能夠像人類一樣主動(dòng)監(jiān)控視頻流,并在關(guān)鍵時(shí)刻及時(shí)輸出反饋,從而大大提升了系統(tǒng)的實(shí)用性和靈活性。
為了驗(yàn)證StreamBridge框架的有效性,研究團(tuán)隊(duì)還推出了一個(gè)名為Stream-IT的數(shù)據(jù)集。該數(shù)據(jù)集包含了約60萬個(gè)樣本,融合了視頻與文本序列,并支持多樣化的指令格式。通過在這一數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,研究團(tuán)隊(duì)能夠更全面地評估和提升模型對流式視頻的理解能力。
實(shí)驗(yàn)結(jié)果顯示,StreamBridge框架在多個(gè)主流離線模型上均取得了顯著的性能提升。特別是在Qwen2-VL模型上,其在OVO-Bench和Streaming-Bench上的平均分分別提高至71.30和77.04,甚至超越了GPT-4o和Gemini 1.5 Pro等專有模型。同時(shí),Oryx-1.5模型也表現(xiàn)出了明顯的性能改進(jìn),而LLaVA-OV模型雖然性能略有下降,但通過Stream-IT數(shù)據(jù)集的微調(diào)后,所有模型的表現(xiàn)均得到了進(jìn)一步的提升。
這一研究成果不僅證明了StreamBridge框架在流式視頻理解領(lǐng)域的強(qiáng)大潛力,也為未來的機(jī)器人技術(shù)、自動(dòng)駕駛等應(yīng)用領(lǐng)域提供了更加智能、高效的解決方案。隨著技術(shù)的不斷進(jìn)步和完善,我們有理由相信,StreamBridge框架將在更多領(lǐng)域發(fā)揮重要作用,推動(dòng)人工智能技術(shù)的持續(xù)發(fā)展和創(chuàng)新。