在OpenAI的Sora持續(xù)引發(fā)行業(yè)熱議的背景下,谷歌于近日正式推出新一代AI視頻生成模型Veo 3.1,試圖在AI視頻生成領(lǐng)域搶占技術(shù)制高點(diǎn)。這款被定位為"專業(yè)級創(chuàng)作工具"的模型,已通過Gemini API向付費(fèi)用戶開放,并深度整合至Flow電影制作平臺及Vertex AI生態(tài)系統(tǒng)中。
相較于Sora 2強(qiáng)調(diào)的快速生成特性,Veo 3.1更注重創(chuàng)作控制與專業(yè)品質(zhì)。其核心突破在于提供對象級編輯功能,允許用戶在視頻場景中直接添加或移除物體,類似Photoshop的"智能填充"技術(shù)。例如,用戶可輕松在森林場景中插入貓頭鷹,或?qū)⑵囂鎿Q為宇宙飛船,系統(tǒng)會自動調(diào)整光照與陰影以保持畫面自然。
技術(shù)團(tuán)隊(duì)著重優(yōu)化了四大關(guān)鍵模塊:素材轉(zhuǎn)視頻功能支持通過多張參考圖像生成連貫場景;首尾幀過渡技術(shù)可根據(jù)靜態(tài)圖片自動生成電影級轉(zhuǎn)場;場景延伸功能可延續(xù)現(xiàn)有視頻敘事并保持風(fēng)格統(tǒng)一;物體插刪系統(tǒng)則實(shí)現(xiàn)精細(xì)化場景構(gòu)建。這些升級使AI視頻生成從"結(jié)果接受"轉(zhuǎn)向"愿景塑造",賦予創(chuàng)作者前所未有的控制力。
音頻處理能力成為Veo 3.1的差異化優(yōu)勢。新模型不僅提供更豐富的背景音效庫,還具備敘事理解能力,能根據(jù)視頻內(nèi)容自動匹配情緒節(jié)奏。相較之下,Sora在語音控制與節(jié)奏把控方面仍存在明顯局限。谷歌工程師透露,該系統(tǒng)經(jīng)過海量YouTube視頻數(shù)據(jù)訓(xùn)練,可精準(zhǔn)理解上下文語境,充當(dāng)"虛擬制片助理"角色。
定價(jià)策略延續(xù)透明化路線,標(biāo)準(zhǔn)版按每秒0.40美元計(jì)費(fèi),F(xiàn)ast版降至0.15美元,均采用按需收費(fèi)模式。模型支持720p/1080p分辨率輸出,基礎(chǔ)時(shí)長4-8秒,通過場景延伸功能最長可擴(kuò)展至148秒。特別針對企業(yè)用戶,系統(tǒng)可記憶產(chǎn)品圖像與品牌風(fēng)格,確保生成內(nèi)容保持視覺一致性,這對廣告、零售行業(yè)的內(nèi)容標(biāo)準(zhǔn)化生產(chǎn)具有重要價(jià)值。
技術(shù)迭代速度令人矚目。今年初發(fā)布的Veo 3已實(shí)現(xiàn)原生AI音頻同步,成為首個(gè)具備該功能的視頻生成工具。僅數(shù)月后,Veo 3.1便在視頻質(zhì)量上實(shí)現(xiàn)跨越式提升,同時(shí)支持橫屏與16:9豎屏格式生成,為YouTube Shorts等短視頻平臺的內(nèi)容生產(chǎn)鋪平道路。這一改進(jìn)直接對標(biāo)TikTok的豎屏生態(tài),預(yù)示AI生成視頻將在社交媒體領(lǐng)域加速滲透。
行業(yè)觀察人士指出,谷歌與OpenAI的技術(shù)競賽已從基礎(chǔ)功能延伸至生態(tài)適配層面。當(dāng)Sora因深度偽造風(fēng)險(xiǎn)引發(fā)倫理爭議時(shí),Veo 3.1通過強(qiáng)化創(chuàng)作控制與品牌保護(hù)功能,試圖在專業(yè)市場建立技術(shù)壁壘。不過,AI視頻生成器的普及仍面臨版權(quán)爭議,多位影視創(chuàng)作者已對AI公司提起訴訟,指控其未經(jīng)授權(quán)使用作品訓(xùn)練模型。
隨著兩大科技巨頭持續(xù)投入資源,AI視頻生成領(lǐng)域正形成技術(shù)、生態(tài)與法律的多維競爭格局。谷歌此次升級不僅展現(xiàn)了技術(shù)實(shí)力,更通過生態(tài)整合與定價(jià)策略,試圖在專業(yè)創(chuàng)作市場構(gòu)建差異化優(yōu)勢。這場變革將如何重塑創(chuàng)意產(chǎn)業(yè)生態(tài),仍需持續(xù)觀察。
















