百度商業研發團隊近期在視頻生成技術領域取得了重大突破,于7月2日正式推出了名為“MuseSteamer”的自研視頻生成模型及其配套的創作平臺“繪想”。這一創新技術被標榜為全球首個能夠實現中文音視頻一體化生成的視頻模型,它徹底顛覆了傳統AIGC視頻制作的流程。
傳統視頻制作往往遵循“先畫面后配音”的模式,而MuseSteamer則通過其先進的技術,實現了畫面、音效與人聲臺詞的協同創作,使得視頻內容的生成更加流暢與和諧。這一變革不僅提升了視頻制作的效率,更為創作者提供了更多元化的創作可能。
MuseSteamer在技術上實現了多項突破。它能夠根據一張圖片,快速生成長達10秒、分辨率為1080p的電影級畫質視頻。視頻中的人物微表情與運鏡效果均達到了專業影視的水準,展現了其強大的生成能力。這一成就的背后,是百度商業研發團隊在億級中文多模態數據清洗、精細化視頻結構化描述語言以及多目標強化學習等技術上的深入探索與優化。
為了滿足不同創作者的需求,MuseSteamer模型家族推出了多個版本,包括Turbo、Lite、Pro及全系列有聲版。這些版本覆蓋了從普通創作者到專業影視機構的廣泛需求,為各類用戶提供了定制化的解決方案。目前,Turbo版已經在繪想平臺上開啟了限時免費公測,而其余版本也將在8月陸續向用戶開放。
百度商業研發團隊的這一創新成果,不僅展示了其在視頻生成技術領域的領先地位,更為整個視頻創作行業帶來了新的發展機遇。隨著MuseSteamer的推廣與應用,我們有理由相信,未來的視頻創作將更加多元化、高效化,為觀眾帶來更多精彩紛呈的視覺盛宴。