百度在近日舉辦的AI DAY開放日上,震撼發(fā)布了其自研的視頻生成模型MuseSteamer,為全球的視頻創(chuàng)作者們送上了一份智能化的創(chuàng)作大禮包。這款模型憑借創(chuàng)新技術(shù),致力于滿足各類用戶的多樣化創(chuàng)作需求,推出了Turbo版、Lite版、Pro版及全系列有聲版等多種版本。
百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林在活動(dòng)中深入介紹了MuseSteamer的核心優(yōu)勢。他強(qiáng)調(diào),MuseSteamer具備出色的指令理解與遵循能力,真正實(shí)現(xiàn)了“所思即所得”的創(chuàng)作理念,讓創(chuàng)作者們的想象力得以自由馳騁。在一段展示的古裝武俠視頻中,MuseSteamer不僅生動(dòng)刻畫了俠客與巨型怪物的激烈對(duì)戰(zhàn),還通過精妙的鏡頭語言,如俯拍、仰拍和環(huán)繞運(yùn)鏡等,將武俠世界的緊張氛圍展現(xiàn)得淋漓盡致。
更令人驚嘆的是,MuseSteamer在短片《她總在三點(diǎn)一刻出現(xiàn)》中的表現(xiàn)。這部短片通過10秒的超長鏡頭和1080P的高清畫質(zhì),將王家衛(wèi)式的色彩美學(xué)發(fā)揮到了極致。從男主角的徘徊張望到女主角喝咖啡的細(xì)膩動(dòng)作,每一個(gè)細(xì)節(jié)都被刻畫得栩栩如生。而高清畫質(zhì)更是將咖啡熱氣、衣物褶皺等微小元素完美呈現(xiàn),為觀眾帶來了電影級(jí)的視覺享受。
MuseSteamer還是全球首個(gè)實(shí)現(xiàn)中文音視頻一體化生成的視頻模型。它能夠同步生成畫面、音效和人物臺(tái)詞,為創(chuàng)作者們提供了更加完整的創(chuàng)作體驗(yàn)。以一段沙漠越野短片為例,MuseSteamer不僅呈現(xiàn)了越野車在沙漠中疾速漂移的震撼畫面,還智能生成了與之相匹配的立體聲效。發(fā)動(dòng)機(jī)的低沉轟鳴、輪胎與沙地的摩擦聲等聲音元素與畫面動(dòng)作完美融合,讓觀眾仿佛身臨其境。
在技術(shù)層面,MuseSteamer的成功得益于百度在數(shù)據(jù)、算法和審美等方面的深厚積累。該模型構(gòu)建了億級(jí)規(guī)模的中文多模態(tài)數(shù)據(jù)庫,并通過三級(jí)優(yōu)化體系實(shí)現(xiàn)了業(yè)界領(lǐng)先的語義對(duì)齊精度。在算法架構(gòu)上,MuseSteamer采用了精細(xì)化結(jié)構(gòu)設(shè)計(jì),支持中文文本、參考圖像等多模態(tài)條件輸入,確保了畫面細(xì)節(jié)和主體運(yùn)動(dòng)軌跡的精準(zhǔn)呈現(xiàn)。MuseSteamer還構(gòu)建了一套完整的有聲視頻生成能力,實(shí)現(xiàn)了視覺信息、高還原度人聲與環(huán)境音的自動(dòng)生成。
隨著MuseSteamer的發(fā)布,百度還推出了全新的AI視頻創(chuàng)作平臺(tái)——“繪想”。這個(gè)平臺(tái)將為創(chuàng)作者們提供更加便捷、高效的視頻生成體驗(yàn)。用戶只需通過PC端搜索“MuseSteamer”或“繪想”,即可免費(fèi)體驗(yàn)Turbo版功能,探索AI視頻創(chuàng)作的無限魅力。為了激發(fā)更多創(chuàng)作者的熱情,百度還將在7月2日至8月3日期間舉辦“繪想·跨次元捏合”AI視頻創(chuàng)作大賽。參賽者只需上傳一張圖片,就能借助MuseSteamer的強(qiáng)大能力生成富有創(chuàng)意的動(dòng)態(tài)視頻作品。