在近日舉辦的百度AI DAY開放日上,百度商業研發團隊震撼發布了其自主研發的視頻生成模型MuseSteamer,這一創新技術為全球的視頻創作者們帶來了前所未有的高效與專業的智能化創作工具。MuseSteamer推出了包括Turbo版、Lite版、Pro版及全系列有聲版在內的多樣化模型矩陣,旨在滿足不同用戶的多元化創作需求。
百度商業體系商業研發總經理劉林在活動中深入闡述了MuseSteamer的核心優勢。他強調,指令理解與遵循能力是衡量多模態大模型性能的關鍵指標,而MuseSteamer憑借其卓越的遵循力,真正實現了“所思即所得”的創作境界,賦予了創作者極大的自由。
在活動中展示的MuseSteamer生成的古裝武俠視頻中,一位俠客與巨型怪物激烈搏斗的場景令人震撼。該視頻通過多模態大模型技術,生動展現了斗笠下俠客緊鎖的眉頭和銳利的目光,即使在特寫和復雜光影條件下,面部微表情依然栩栩如生。同時,MuseSteamer還展現了其強大的鏡頭運用能力,通過俯拍、仰拍和環繞運鏡等手法,將這場生死對決的緊張氛圍展現得淋漓盡致,讓普通用戶也能輕松創作出電影級別的作品。
MuseSteamer不僅能夠精準把握視頻的基本劇情和畫面,還能通過快慢鏡頭的交替運用,將打斗軌跡和緊張氛圍完美呈現。在短片《她總在三點一刻出現》中,MuseSteamer通過10秒超長鏡頭和1080P高清畫質,展現了電影級的藝術表現力。視頻中的每一個細節,從咖啡熱氣到衣物褶皺,都被刻畫得栩栩如生,為創作者提供了更加廣闊的表達空間。
MuseSteamer是全球首個實現中文音視頻一體化生成的視頻模型。它能夠同步生成畫面、音效和人物臺詞,實現聲音與畫面的自然融合,顯著提升了視頻作品的完整性和藝術表現力。在一段沙漠越野主題的短片中,系統不僅呈現了越野車在沙漠中疾速漂移的畫面,還智能生成了與之相匹配的立體聲效,為創作者帶來了真正“所見即所感”的音視頻一體化體驗。
在技術層面,MuseSteamer的卓越表現得益于百度在數據、算法和審美方面的深厚積累。該模型構建了億級規模的中文多模態數據庫,并通過三級優化體系實現了業界領先的語義對齊精度。在算法架構上,MuseSteamer采用精細化結構設計,支持中文文本、參考圖像等多模態條件輸入,確保了畫面細節和主體運動軌跡的精準呈現。MuseSteamer還能生成分辨率高達1080P的高清視頻,呈現出電影級別的流暢轉場和逼真的物理運動規律。
隨著MuseSteamer的發布,百度還推出了全新的AI視頻創作平臺——“繪想”,為創作者們提供了更加便捷的視頻生成體驗。用戶只需通過PC端搜索“MuseSteamer”或“繪想”,即可免費體驗Turbo版功能,探索AI視頻創作的無限魅力。同時,為了激發創作者的熱情,百度還將在活動期間舉辦“繪想·跨次元捏合”AI視頻創作大賽,參賽者只需上傳一張圖片,即可借助MuseSteamer的強大能力生成富有創意的動態視頻作品。