百度商業研發團隊近期公布了一項創新成果,正式推出了名為“MuseSteamer”的視頻生成模型及其配套平臺“繪想”,這一創新技術被標榜為全球首個支持中文音視頻一體化生成的視頻模型,為視頻創作領域帶來了全新的變革。
不同于傳統AIGC視頻制作中“先畫面后配音”的常規流程,MuseSteamer實現了畫面、音效與人聲臺詞的同步創作,極大地提升了視頻制作的效率與靈活性。這一技術的出現,無疑為視頻創作者們打開了一扇全新的創作之門。
據百度研發團隊透露,MuseSteamer在技術上取得了多項重大突破。它僅需一張圖片,就能迅速生成長達10秒、分辨率高達1080p的電影級畫質視頻。視頻中的人物表情細膩豐富,運鏡效果專業流暢,這得益于團隊對億級中文多模態數據的深度挖掘、精細化視頻結構化描述語言的開發,以及多目標強化學習等先進技術的運用。
為了滿足不同創作者的需求,MuseSteamer推出了多個版本,包括Turbo、Lite、Pro及全系列有聲版,這些版本各具特色,覆蓋了從普通視頻愛好者到專業影視制作機構的廣泛需求。目前,Turbo版已在繪想平臺上開放限時免費公測,吸引了眾多創作者的關注和參與,而其他版本也計劃在8月陸續上線。
MuseSteamer的推出,不僅為視頻創作者提供了更為強大的技術支持,也預示著視頻創作行業即將迎來一次全新的升級。這一創新技術將如何改變視頻創作的未來,值得我們共同期待。