字節新視頻模型Vidi2,理解能力超過了Gemini 3 Pro。
不僅會看還會“剪”,能根據數小時的素材和一個提示,生成JSON剪輯指令。
剪輯位置、臺詞、字幕、配樂等內容都完整涵蓋,“照方抓藥”之后效果be like:
這下子,電影里的小帥小美高光時刻,也能用AI批量生成了(手動狗頭)。
一口氣生成剪輯方案Vidi2還能像剪輯師一樣幫你處理素材。你只需要把一大堆原始素材給它,再說個大概的創意方向,它就能自己去構思劇本。
它會生成一份非常詳細的剪輯清單,精確規定好每個鏡頭截取哪幾秒、播放速度是多少、字幕用什么樣式,連配合畫面的吐槽旁白都會自動寫好。
最后你只要照著這份清單渲染,就能直接導出一支有劇情、有配樂、有特效的完整視頻。
能夠實現這一操作的基礎在于,Vidi2在視頻理解上的表現確實很突出。
以往的模型可能只能告訴你某個畫面大概出現在第幾分鐘,但Vidi2不僅能把時間段卡得很準,還能直接在畫面上畫個框,把你要找的人或物體實時圈出來。
這種精細的定位能力在處理長視頻時非常關鍵,哪怕視頻長達半小時,或者畫面里的物體很小、運動很快,它也能穩穩地跟住。
從測試結果來看,它在這些任務上的準確度比GPT-5和Gemini 3 Pro都要高不少,基本解決了長視頻里找不到關鍵細節的問題。
具體來說,Vidi2在核心的時空定位任務上取得了壓倒性優勢,其衡量時空對齊精度的關鍵指標(vIoU-Int.)高達60.3%,幾乎是GPT-5(33.6%)的兩倍,更是遠超Gemini 3 Pro Preview(16.6%)。
特別是在超長視頻處理上,Vidi2具有極高的穩定性,當視頻時長超過一小時,Vidi2依然能保持38.7%的檢索精度。
端到端時空定位Vidi2最核心的技術突破在于實現了端到端的時空定位能力。
它能夠在統一的輸出中精準鎖定目標事件的時間片段并同步生成空間邊界框軌跡,從而解決長視頻中復雜對象的持續追蹤難題。
數據進入模型后,首先通過統一的編碼接口進行處理,單張靜態圖像被直接視為時長為一秒的靜音視頻。
針對視頻時長從十秒到三十分鐘不等的跨度,模型采用了重新設計的自適應Token壓縮策略,根據視頻總時長動態調節信息密度,在處理短視頻時保留高密度特征,面對長視頻時則通過壓縮降低負載。
經過編碼與壓縮的特征流隨即進入模型核心。
Vidi2以Vidi1的架構為基礎,將其中的模型替換成了Google最新的開源模型Gemma-3,并配合增強的視覺編碼器構建起參數量達120億的底座。
其關鍵是采用了分解注意力(Decomposed Attention)機制,把傳統Transformer的全注意力運算拆解為視覺內部的對角注意力、文本自注意力及跨模態注意力三個獨立部分。
該機制將多模態Token的計算復雜度從平方級降低為線性級,使模型能以有限顯存處理長達一小時的視頻流。
為了解決時空定位數據極度稀缺的難題,研發團隊還設計了一套獨特的數據合成路徑,利用現有量圖像級空間定位數據,通過滑動窗口算法來處理靜態圖像,在圖像上模擬攝像機的運動軌跡。
這一過程將原始圖像中的靜態邊界框動態映射到生成的每一個視頻幀中,從而自動生成了隨時間連續變化的邊界框序列,在數據構造層面直接實現了將靜態的空間定位擴展為動態的時間對齊。
訓練流程還引入了大量經過高精度人工標注的真實世界視頻數據,以修正合成數據可能帶來的分布偏差并進一步提升定位精度。
在最終訓練階段,Vidi2采用了時間感知多模態對齊策略(Temporal-aware Multimodal Alignment)。
這是一種分階段、雙向強化的訓練機制,首先在合成與真實數據訓練中,利用雙向預測任務——根據時間戳預測密集字幕,以及根據文本反推時間范圍——來訓練模型對時間邊界的敏感度。
隨后在后訓練階段,融入了大量通用視頻問答數據,通過回答開放式問題來驗證并強化模型在視覺、聽覺與文本之間的深層語義關聯。
總之,在Vidi2當中,數據確實扮演了很重要的角色,如這位網友所說,谷歌Gemini和Veo 3做的好,是因為手里有YouTube當中的視頻數據。
而手握大量短視頻的字節,同樣擁有自己的數據優勢。












