“多人對話音視頻一體化生成”大模型百度蒸汽機(jī)(MuseSteamer)迎來重大技術(shù)突破,其最新版本正式推出通用AI長視頻生成功能,用戶可借此生成任意時(shí)長的AI視頻內(nèi)容,徹底打破傳統(tǒng)AI視頻生成5秒、10秒的時(shí)長限制。
此次升級的核心亮點(diǎn)在于兩大技術(shù)突破:其一,通過流式生成技術(shù)實(shí)現(xiàn)視頻“無限”時(shí)長生成,用戶輸入一張參考圖和文本描述即可生成電影級質(zhì)感的長視頻;其二,首創(chuàng)生成過程中的交互式創(chuàng)作模式,用戶可隨時(shí)暫停生成并提交新的提示詞(prompt),動態(tài)調(diào)整后續(xù)劇情走向。
在技術(shù)實(shí)現(xiàn)層面,百度蒸汽機(jī)采用自回歸擴(kuò)散模型,結(jié)合幀級噪聲獨(dú)立控制與動態(tài)時(shí)間步調(diào)度策略,突破傳統(tǒng)擴(kuò)散模型在長視頻生成中的性能瓶頸。同時(shí),依托商業(yè)體系強(qiáng)大的工程優(yōu)化能力,通過模型參數(shù)壓縮、窗口注意力機(jī)制優(yōu)化等手段,將推理耗時(shí)降至近乎實(shí)時(shí)水平,確保長視頻生成的流暢性與效率。
據(jù)項(xiàng)目負(fù)責(zé)人介紹,升級后的模型已實(shí)現(xiàn)理論上的無限時(shí)長視頻生成能力,用戶僅需輸入基礎(chǔ)素材即可生成包含多人對話、精準(zhǔn)口型同步的復(fù)雜視頻內(nèi)容。例如,在官方演示中,模型成功生成30秒及超1分鐘的連貫視頻片段,畫面質(zhì)量與敘事邏輯均達(dá)到專業(yè)水準(zhǔn)。
9月25日,百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林與知名編劇田博通過直播連麥,首次對外解析技術(shù)細(xì)節(jié)。劉林強(qiáng)調(diào),此次升級不僅解決了AI視頻生成依賴首尾幀控制續(xù)寫的局限,更通過“生成中可交互”功能賦予用戶創(chuàng)作主導(dǎo)權(quán)。田博則指出,AI視頻生成技術(shù)僅用一年時(shí)間便完成電影行業(yè)50年的技術(shù)演進(jìn),為編劇與內(nèi)容創(chuàng)作者開辟了前所未有的想象空間。
從應(yīng)用場景看,AI長視頻生成技術(shù)顯著降低了視頻創(chuàng)作門檻,助力個(gè)人創(chuàng)作者產(chǎn)出更完整、優(yōu)質(zhì)的內(nèi)容,同時(shí)為企業(yè)用戶、影視及廣告行業(yè)提供高效低成本的解決方案。目前,該技術(shù)已廣泛應(yīng)用于百度客戶的營銷創(chuàng)意中,知名視效指導(dǎo)姚騏曾使用蒸汽機(jī)2.0制作科幻短片《歸途》,將制作成本壓縮至數(shù)百元,驗(yàn)證了其商業(yè)化潛力。
作為全球首個(gè)中文音視頻一體化生成模型,百度蒸汽機(jī)自今年3月首發(fā)以來持續(xù)迭代:5月登頂VBench-I2V圖生視頻榜首;7月推出Turbo版模型及C端創(chuàng)作平臺“繪想”,實(shí)現(xiàn)畫面、音效與人聲臺詞的協(xié)同創(chuàng)作;8月完成音視頻一體化升級,支持多人有聲視頻生成;如今再次突破時(shí)長限制,成為行業(yè)首個(gè)具備“無限”生成能力的通用AI視頻模型。
數(shù)據(jù)顯示,蒸汽機(jī)Turbo版上線兩周注冊用戶量突破20萬,單小時(shí)任務(wù)提交量達(dá)1.8萬次,累計(jì)生成內(nèi)容超200萬條。據(jù)透露,該模型將于10月中旬進(jìn)一步升級,新增實(shí)時(shí)交互長視頻生成功能,涵蓋可交互數(shù)字人、VR/AR視頻內(nèi)容及動態(tài)游戲世界生成能力,持續(xù)推動AI視頻技術(shù)邊界拓展。