國(guó)慶假期期間,視頻生成領(lǐng)域迎來新一輪技術(shù)熱潮,各大科技公司紛紛推出創(chuàng)新產(chǎn)品,推動(dòng)行業(yè)進(jìn)入全新發(fā)展階段。OpenAI率先發(fā)布旗艦視頻生成模型Sora 2,并同步推出Sora應(yīng)用程序,其"Cameo(引用角色功能)"在上線首周下載量便超越ChatGPT,引發(fā)市場(chǎng)廣泛關(guān)注。緊隨其后,馬斯克旗下xAI推出Imagine v0.9,以20秒內(nèi)快速生成視頻且全用戶免費(fèi)開放的特點(diǎn)作出回應(yīng)。國(guó)內(nèi)AI視頻創(chuàng)業(yè)公司生數(shù)科技也宣布,其Vidu Q2參考生功能將于本月底正式亮相,為行業(yè)注入新的活力。
在這場(chǎng)技術(shù)競(jìng)賽中,"引用角色形象"成為視頻生成領(lǐng)域的關(guān)鍵突破方向。Sora應(yīng)用的Cameo功能和Vidu的參考生功能,均通過支持上傳參考圖生成視頻的方式,有效解決了視頻生成中的情節(jié)割裂、角色行為矛盾等問題。這種技術(shù)路徑不僅提升了視頻生成的可控性,還為創(chuàng)作者提供了更高的自由度。
作為全球"參考生視頻"概念的首創(chuàng)者,生數(shù)科技早在2024年9月便推出了Vidu的參考生視頻功能。隨著Sora應(yīng)用程序的落地,中美在AI視頻領(lǐng)域的技術(shù)與產(chǎn)品競(jìng)爭(zhēng)正式進(jìn)入白熱化階段。Vidu Q2參考生視頻功能的推出,不僅降低了普通用戶的使用門檻,還滿足了專業(yè)創(chuàng)作者及廣告電商、影視動(dòng)漫等To B領(lǐng)域?qū)σ恢滦浴⒕珳?zhǔn)性和性價(jià)比的高要求。
當(dāng)前,視頻生成技術(shù)仍面臨諸多挑戰(zhàn)。相較于文字和圖像生成,視頻生成需要處理連續(xù)畫面中的敘事完整性,時(shí)長(zhǎng)增加時(shí)易出現(xiàn)情節(jié)斷裂、角色行為不一致等問題。模型的理解能力和記憶能力限制,以及普通用戶難以準(zhǔn)確使用專業(yè)術(shù)語的痛點(diǎn),進(jìn)一步加劇了視頻生成的可控性難題。引用角色形象的技術(shù)思路,成為解決這些問題的有效路徑。
Sora App中的Cameo功能允許用戶通過簡(jiǎn)短視頻和音頻錄制,將自己或授權(quán)他人帶入生成的場(chǎng)景中,實(shí)現(xiàn)角色參考。而Vidu的"參考生"功能則覆蓋角色、環(huán)境、道具等更多要素,為創(chuàng)作者提供更高的自由度和控制力。例如,Vidu Q2支持上傳最多7張照片,包括人物、物體、場(chǎng)景等不同組合,并在保持參考圖特征的同時(shí),更貼近用戶原始輸入。
在實(shí)際效果對(duì)比中,Vidu Q2參考生功能展現(xiàn)出顯著優(yōu)勢(shì)。以介紹皇冠的提示詞為例,Sora 2生成的視頻中皇冠樣式發(fā)生改變,甚至出現(xiàn)憑空漂浮的反常理畫面;而Vidu Q2生成的視頻中,主體人物始終手握皇冠,人物形象、皇冠樣式及麥克風(fēng)位置保持一致,眼神隨皇冠移動(dòng)而變化,增強(qiáng)了互動(dòng)感。盡管Vidu Q2未生成音頻,但其在主體一致性上的表現(xiàn)更為突出。
在另一個(gè)案例中,提示詞要求"女孩閉上眼睛,身后的云朵飛舞,發(fā)出金光"。Sora 2生成的人臉與參考圖差異較大,而Vidu Q2則更好地保持了與參考圖人物的一致性。這些對(duì)比表明,Vidu參考生功能突破了單一角色引用的局限,實(shí)現(xiàn)了角色、道具、場(chǎng)景、特效等全要素參考,同時(shí)在主體一致性上保持領(lǐng)先。
據(jù)悉,Vidu Q2模型的升級(jí)將AI視頻生成推向新階段,其參考生功能在原有基礎(chǔ)上實(shí)現(xiàn)了質(zhì)的突破。升級(jí)后的版本在視頻一致性上保持全球領(lǐng)先,生成速度更快,價(jià)格更優(yōu)惠,且對(duì)國(guó)內(nèi)用戶更加友好。內(nèi)測(cè)體驗(yàn)顯示,Vidu Q2在廣告電商、知識(shí)科普、寵物擬人化劇情等多個(gè)場(chǎng)景中均表現(xiàn)出色,能夠滿足鏡頭角度轉(zhuǎn)換、人物動(dòng)作變化等需求,生成速度僅需十幾秒即可完成5秒視頻片段。
例如,在廣告電商類案例中,Vidu Q2成功復(fù)現(xiàn)了美妝博主眼睛上的亮片、使用的美妝蛋及臥室梳妝臺(tái)等細(xì)節(jié),人物運(yùn)動(dòng)和鏡頭切換時(shí)未出現(xiàn)變形。在知識(shí)科普類案例中,皮革紋理、工具擺放位置保持不變,鏡頭切換精準(zhǔn)。在寵物擬人化劇情案例中,客廳背景、道具位置及柯基帽子均與參考圖一致,鏡頭運(yùn)鏡符合提示詞要求。這些案例充分展示了Vidu Q2參考生功能的實(shí)用性和創(chuàng)新性。
隨著Vidu Q2參考生視頻功能的發(fā)布倒計(jì)時(shí)開啟,其將用實(shí)際表現(xiàn)證明中國(guó)視頻大模型的技術(shù)實(shí)力和落地價(jià)值。這場(chǎng)視頻生成競(jìng)賽不僅推動(dòng)了技術(shù)的進(jìn)步,也為創(chuàng)作者提供了更高效的工具,助力視頻生成領(lǐng)域邁向新的發(fā)展高度。












