在百度AI DAY開放日活動上,百度商業研發團隊震撼發布了其自主研發的視頻生成模型MuseSteamer,為全球的視頻創作者們帶來了一場技術與藝術的盛宴。這款模型憑借一系列創新技術,為創作者們提供了高效且專業的智能化解決方案。
MuseSteamer模型系列豐富,包括Turbo版、Lite版、Pro版及全系列有聲版,旨在滿足不同層次用戶的多樣化創作需求。百度商業體系商業研發總經理劉林在發布會上深入闡述了MuseSteamer的核心優勢,強調其指令理解與遵循能力達到了前所未有的高度,真正實現了“所思即所得”的創作理念。
發布會現場展示了MuseSteamer生成的古裝武俠視頻片段,一位俠客與巨型怪物激戰正酣,畫面逼真生動,斗笠下的俠客表情細膩入微,運鏡技巧專業且富有張力。從俯拍展現怪物的壓迫感,到俠客視角的仰拍,再到環繞運鏡呈現交鋒瞬間,每一個鏡頭都彰顯出MuseSteamer的強大實力,讓普通用戶也能輕松創作出電影級別的作品。
在另一個短片《她總在三點一刻出現》中,MuseSteamer展現了其在情感表達和色彩運用上的卓越能力。固定機位捕捉男主角的徘徊張望,細膩呈現女主角喝咖啡的細節,蒸汽中的睫毛顫動,每一個畫面都充滿了王家衛式的色彩美學。高清畫質將每一個細節刻畫得淋漓盡致,為創作者提供了更廣闊的創意空間。
MuseSteamer還是全球首個實現中文音視頻一體化生成的視頻模型。在一段沙漠越野主題的短片中,系統不僅呈現了越野車疾速漂移的畫面,還智能生成了與之匹配的立體聲效,發動機轟鳴、輪胎摩擦聲等聲音元素與畫面動作完美融合,為創作者帶來了前所未有的音視頻一體化體驗。
MuseSteamer的成功離不開百度在數據、算法、審美等方面的深厚積累。該模型構建了億級規模的中文多模態數據庫,通過三級優化體系實現了業界領先的語義對齊精度。在算法架構上,MuseSteamer采用精細化結構設計,支持多模態條件輸入,確保對畫面細節和主體運動軌跡的精準遵循。模型還具備生成高清視頻的能力,呈現出電影級的流暢轉場和逼真的物理運動規律。
伴隨著MuseSteamer的發布,百度還推出了全新的AI視頻創作平臺——“繪想”,為用戶提供了更為便捷的視頻生成體驗。用戶只需上傳一張圖片,即可借助MuseSteamer的強大能力生成富有創意的動態視頻作品。為了激發更多創作熱情,百度還將在活動期間舉辦“繪想·跨次元捏合”AI視頻創作大賽,讓更多人參與到這場技術與藝術的融合中來。