谷歌近日悄然上線了新一代視頻生成模型Veo 3.1,在AI視頻生成領(lǐng)域掀起新一輪競(jìng)爭(zhēng)。這款被視為Sora 2有力競(jìng)爭(zhēng)者的產(chǎn)品,雖未帶來(lái)顛覆性突破,卻因多項(xiàng)功能與國(guó)內(nèi)產(chǎn)品的相似性引發(fā)關(guān)注。
目前Veo 3.1提供標(biāo)準(zhǔn)版與快速版兩種模式,普通用戶可通過(guò)Gemini應(yīng)用或Flow平臺(tái)體驗(yàn),開(kāi)發(fā)者則能通過(guò)API接口調(diào)用核心功能。值得注意的是,該模型在視頻生成質(zhì)量上實(shí)現(xiàn)了顯著提升,最高支持1080p分辨率輸出,畫(huà)面細(xì)節(jié)與清晰度達(dá)到專(zhuān)業(yè)級(jí)水準(zhǔn)。相比之下,同期競(jìng)品Sora 2的720p輸出能力顯得稍顯落后。
在功能創(chuàng)新方面,Veo 3.1引入了多項(xiàng)實(shí)用特性。其中最受關(guān)注的當(dāng)屬參考圖定角色功能,用戶可上傳最多三張圖片作為角色特征參考,有效解決多鏡頭切換中的人物一致性難題。這項(xiàng)技術(shù)雖非首創(chuàng),但相比OpenAI Sora 2的缺失狀態(tài),仍顯示出谷歌的技術(shù)跟進(jìn)速度。不過(guò)國(guó)內(nèi)某知名AI視頻平臺(tái)早已支持四張參考圖輸入,在功能深度上更勝一籌。
音頻生成能力的升級(jí)是另一大亮點(diǎn)。模型現(xiàn)在能同步生成與畫(huà)面匹配的環(huán)境音效,從雨滴敲擊聲到腳步回響,再到自然對(duì)話的語(yǔ)音表現(xiàn),都呈現(xiàn)出更強(qiáng)的真實(shí)感。但考慮到Sora 2在此領(lǐng)域的先發(fā)優(yōu)勢(shì),這項(xiàng)改進(jìn)更多被視為技術(shù)追趕而非突破。
連續(xù)生成功能解決了短視頻創(chuàng)作的連貫性問(wèn)題。用戶可基于前段視頻的最后兩秒內(nèi)容繼續(xù)擴(kuò)展,最長(zhǎng)可生成超過(guò)一分鐘的完整片段,背景音樂(lè)與畫(huà)面過(guò)渡自然流暢。這種"接龍式"創(chuàng)作模式同樣出現(xiàn)在國(guó)內(nèi)產(chǎn)品中,顯示出技術(shù)發(fā)展的趨同性。
首尾幀控制功能為創(chuàng)作者提供了更精準(zhǔn)的畫(huà)面控制手段。通過(guò)設(shè)定起始幀與結(jié)束幀,模型能自動(dòng)補(bǔ)全中間過(guò)渡畫(huà)面,包括光線變化與音效配合。這種技術(shù)在國(guó)內(nèi)多個(gè)AI視頻平臺(tái)上已有成熟應(yīng)用,谷歌的加入進(jìn)一步驗(yàn)證了其市場(chǎng)需求。
在用戶體驗(yàn)設(shè)計(jì)上,谷歌采取了差異化策略。普通用戶每次生成需消耗20積分,初始賬戶僅提供單次免費(fèi)機(jī)會(huì),后續(xù)使用需付費(fèi)升級(jí)。這種商業(yè)模式與國(guó)內(nèi)某平臺(tái)形成鮮明對(duì)比——后者宣布在特定時(shí)間段內(nèi)提供完全免費(fèi)的Veo 3.1使用權(quán)限,且不附加任何水印限制。
開(kāi)發(fā)者文檔顯示,通過(guò)API調(diào)用可實(shí)現(xiàn)更復(fù)雜的創(chuàng)作需求。用戶不僅能輸入文字指令,還可上傳圖片甚至現(xiàn)有視頻作為創(chuàng)作素材,這種多模態(tài)交互方式為專(zhuān)業(yè)創(chuàng)作開(kāi)辟了新可能。快速版模式雖默認(rèn)生成720p視頻,但支持付費(fèi)升級(jí)至1080p,顯示出谷歌在商業(yè)變現(xiàn)上的謹(jǐn)慎探索。











