百度商業研發團隊近期宣布了一項重大技術突破,成功推出了名為“MuseSteamer”的自研視頻生成模型,以及與之配套的創作平臺“繪想”。這一創新成果標志著全球首個中文音視頻一體化生成視頻模型的誕生,徹底顛覆了傳統AIGC視頻制作的固有流程。
MuseSteamer模型通過高度協同的創作方式,實現了畫面、音效與人聲臺詞的同步生成,徹底打破了以往“先畫面后配音”的制作界限。這一技術革新不僅提升了視頻制作的效率,更為創作者提供了前所未有的創作自由度。
在技術上,MuseSteamer取得了顯著的突破。它在權威榜單VBench I2V中以89.38%的總分榮登榜首,充分展示了其卓越的性能。更令人驚嘆的是,該模型支持從一張圖片中生成長達10秒、分辨率為1080p的電影級畫質視頻。視頻中的人物微表情與運鏡效果均達到了專業影視制作的水準。
MuseSteamer的成功得益于百度團隊的深入研究和技術積累。他們利用億級中文多模態數據進行清洗,并開發了精細化視頻結構化描述語言。多目標強化學習等先進技術的優化也為MuseSteamer的核心能力提供了有力支撐。
為了滿足不同創作者的需求,MuseSteamer模型家族推出了Turbo、Lite、Pro及全系列有聲版等多個版本。目前,Turbo版已在繪想平臺上限時免費開放公測,吸引了大量創作者的關注和參與。其余版本也將在8月陸續向公眾開放。
與此同時,繪想平臺還啟動了“跨次元捏合”AI視頻創作大賽。參賽者只需通過單圖輸入,即可生成動態捏捏樂視頻參與比賽。這一活動不僅激發了創作者的熱情,也為MuseSteamer的應用場景拓展提供了新的可能。