百度商業(yè)研發(fā)團隊近期在視頻生成技術(shù)領(lǐng)域取得了重大進展,于7月2日正式推出了自研的視頻生成模型“MuseSteamer”及其配套的創(chuàng)作平臺“繪想”。這一創(chuàng)新成果標志著百度在AI視頻生成領(lǐng)域邁出了關(guān)鍵一步,特別是針對中文音視頻一體化生成方面。
MuseSteamer的核心亮點在于其能夠打破傳統(tǒng)視頻制作的常規(guī)流程,實現(xiàn)了畫面、音效與人聲臺詞的同步創(chuàng)作。以往的視頻生成技術(shù)往往遵循“先畫面后配音”的模式,而MuseSteamer則能夠同步處理這些元素,大大提升了視頻創(chuàng)作的效率與流暢度。
在技術(shù)層面,MuseSteamer展現(xiàn)了多項突破性的能力。它能夠根據(jù)一張圖片,迅速生成長達10秒、分辨率為1080p的電影級畫質(zhì)視頻。視頻中的人物微表情與運鏡效果均達到了專業(yè)影視制作的標準。這些能力的背后,是百度團隊對億級中文多模態(tài)數(shù)據(jù)的深度清洗、精細化視頻結(jié)構(gòu)化描述語言的開發(fā),以及多目標強化學習等先進技術(shù)的綜合應用。
MuseSteamer模型家族涵蓋了Turbo、Lite、Pro及全系列有聲版等多個版本,旨在滿足不同用戶群體的需求,從普通創(chuàng)作者到專業(yè)影視機構(gòu)都能找到適合自己的工具。目前,Turbo版已在繪想平臺上開啟限時免費公測,其他版本也將在8月內(nèi)陸續(xù)向公眾開放。