字節跳動近日正式推出全新音視頻生成模型Seedance 1.5 pro,這款模型實現了從文本或圖像直接生成帶有同步音頻的動態視頻,標志著音視頻聯合生成技術取得重要突破。該模型不僅支持多語言內容生成,還能精準模擬方言語音特征,為影視、廣告、游戲等領域的內容創作提供了全新工具。
技術團隊介紹,Seedance 1.5 pro在音畫同步方面進行了深度優化,通過創新算法顯著提升了口型匹配度、語調自然度與表演節奏的協調性。模型支持中文、英文、日文等主流語言,并具備模擬四川話、粵語等方言語音特征的能力,使生成內容更具地域特色。在視頻生成層面,該模型突破傳統固定鏡頭模式,能夠自主完成長鏡頭跟隨、希區柯克式變焦等復雜運鏡效果,有效增強了畫面的敘事張力和視覺沖擊力。
該模型采用基于MMDiT架構的音視頻聯合生成框架,結合多階段數據鏈路優化與強化學習技術,實現了從文本描述到完整音視頻內容的自動化生成。測試數據顯示,在影視創作、廣告制作、短劇開發及游戲動畫等應用場景中,生成內容在指令遵循準確率、音質清晰度等核心指標上均有顯著提升。不過技術團隊也坦言,當前模型在處理復雜物理運動場景的穩定性、多角色對話的邏輯連貫性等方面仍存在優化空間。
目前,Seedance 1.5 pro已向特定行業合作伙伴開放測試,其生成的內容在保持創作自由度的同時,大幅縮短了傳統音視頻制作流程。這項技術不僅為專業內容創作者提供了高效工具,也為普通用戶降低音視頻創作門檻開辟了新路徑。隨著模型持續迭代優化,未來有望在更多領域展現其技術價值。





