近日,人工智能領(lǐng)域迎來新突破——由知名學(xué)者曹越團(tuán)隊(duì)打造的Sand.ai公司正式推出音畫同步AI視頻生成模型GAGA-1。該模型自上線起即面向全體用戶開放,無需邀請碼或等待審核,用戶可通過官網(wǎng)http://gaga.art直接體驗(yàn)。
研發(fā)團(tuán)隊(duì)透露,GAGA-1的研發(fā)周期長達(dá)六個(gè)月,遠(yuǎn)超原定兩個(gè)月的目標(biāo)。其核心技術(shù)聚焦于人物表演領(lǐng)域,尤其在臺詞驅(qū)動的動態(tài)呈現(xiàn)上達(dá)到影視級標(biāo)準(zhǔn)。測試顯示,該模型可完美適配短視頻、互動影游場景,部分功能滿足電視劇制作需求,但在電影級細(xì)膩表現(xiàn)上仍有提升空間。
目前開放的"Gaga Actor"功能采用固定16:9畫幅,支持5秒與10秒兩種視頻時(shí)長。用戶需通過"圖片+文字描述"的組合方式生成內(nèi)容,平均3-4分鐘即可完成渲染。語言支持方面,中英文臺詞生成效果優(yōu)異,能精準(zhǔn)捕捉失望、憤怒等復(fù)雜情緒,甚至實(shí)現(xiàn)雙人互動場景的同步演繹。
實(shí)測發(fā)現(xiàn),GAGA-1具備多項(xiàng)創(chuàng)新功能:可識別外籍人物特征并生成帶口音的普通話對話,支持基礎(chǔ)歌唱功能,還能處理特定文化背景下的形象生成。但技術(shù)團(tuán)隊(duì)坦承,模型在復(fù)雜動作捕捉時(shí)易出現(xiàn)肢體扭曲,長文本描述可能導(dǎo)致信息丟失,日語處理存在異常,且暫不支持自定義音頻導(dǎo)入和固定音色功能。特別值得注意的是,其內(nèi)置的Banana繪圖模塊在亞洲人像渲染方面表現(xiàn)欠佳,建議與Seedream 4.0配合使用。
關(guān)于產(chǎn)品路線圖,開發(fā)方表示自定義音頻和音色鎖定功能已進(jìn)入最終測試階段,因工程排期問題未納入本次發(fā)布。定價(jià)策略方面,雖然免費(fèi)使用期限尚未確定,但明確表示最終收費(fèi)標(biāo)準(zhǔn)將顯著低于同類產(chǎn)品Sora2和Veo3。當(dāng)前版本已能滿足短視頻創(chuàng)作、游戲NPC對話生成、小說角色動態(tài)化等場景需求,為低成本內(nèi)容生產(chǎn)開辟新路徑。
更多人工智能領(lǐng)域動態(tài),可訪問資訊平臺http://www.aipress.com.cn獲取。











