在科技界的矚目之下,百度于近期的AI DAY科技開放日上,揭開了其自研視頻生成模型MuseSteamer的神秘面紗,并同步推出了視頻產品平臺“繪想”。MuseSteamer采用了先進的DIT架構,其參數規模與業界頂尖的視頻生成模型相當,具備生成連續10秒動態視頻的能力,最高分辨率可達1080P,展現了百度在視頻生成技術上的深厚積累。
值得注意的是,MuseSteamer的誕生并非出自百度文心大模型的技術中臺部門TPG,而是由百度移動生態商業研發團隊傾力打造。這一舉動,似乎與百度CEO李彥宏去年10月的內部講話內容相悖,當時他曾表示,由于視頻生成模型的投入周期長,百度并未計劃涉足此領域。
然而,百度副總裁、移動生態商業體系負責人陳一凡在媒體溝通會上,對百度涉足視頻生成模型的原因進行了解釋。他提到,去年百度推出的擎舵平臺旨在幫助代理商和廣告主快速生成廣告,但在實際應用中,他們收到了關于科幻場景難以拍攝的反饋。為了滿足這一需求,百度移動生態商業體系決定自研視頻生成模型。
一位百度內部人士進一步透露,李彥宏在去年內部講話中確實提到了基于多模態需求,可以探索特定視頻生成場景的可能性。此次發布的MuseSteamer和早前的羅永浩數字人項目,都是百度在特定場景和需求下進行的探索。
與市場上多數技術驅動型的視頻生成模型不同,百度的MuseSteamer采取了商業驅動的研發路徑。它首先明確了商業需求,再結合需求進行模型研發。這種以需求為導向的研發模式,使得MuseSteamer在誕生之初就具備了明確的應用場景和市場需求。
據百度商業體系商業研發總經理劉林介紹,MuseSteamer項目于今年春節后開始立項,研發團隊規模雖不大,但憑借在擎舵平臺多模態生成技術上的積累,以及百度商業體系在模型訓練框架推理、卡片調優等方面的經驗,僅用了3個月時間就實現了模型的有效上線。