字節(jié)跳動近日正式推出全新一代音視頻生成模型Seedance 1.5 pro,這款模型突破了傳統(tǒng)生成式技術(shù)的局限,首次實現(xiàn)從文本或圖像輸入到帶同步音頻視頻的完整創(chuàng)作流程。該技術(shù)通過深度整合音視頻生成模塊,在保持內(nèi)容連貫性的同時,能夠精準控制語音與畫面的時空同步關(guān)系。
在語音生成維度,模型支持中、英、日等主流語言,并特別強化了方言語音的擬真度。研發(fā)團隊通過構(gòu)建多維度聲學(xué)特征庫,使系統(tǒng)能夠模擬四川話的抑揚頓挫和粵語的九聲六調(diào),甚至能捕捉不同地域的語調(diào)起伏特征。針對影視創(chuàng)作需求,模型還優(yōu)化了情感語音合成技術(shù),可根據(jù)文本情境自動調(diào)整語速、重音和停頓節(jié)奏。
畫面生成方面,該模型引入智能運鏡算法,突破傳統(tǒng)固定視角限制。通過分析文本中的空間關(guān)系和敘事節(jié)奏,系統(tǒng)可自主規(guī)劃鏡頭運動軌跡,實現(xiàn)長鏡頭跟隨、動態(tài)變焦等專業(yè)拍攝效果。在測試案例中,模型成功生成了包含多人物互動的復(fù)雜場景,通過動態(tài)調(diào)整景深和焦點位置,營造出電影級的視覺層次感。
技術(shù)架構(gòu)上,研發(fā)團隊采用改進型MMDiT框架,構(gòu)建了多階段數(shù)據(jù)優(yōu)化鏈路。在預(yù)處理階段,系統(tǒng)將輸入文本解析為時空語義單元;生成階段通過強化學(xué)習(xí)機制動態(tài)調(diào)整音視頻參數(shù);后處理環(huán)節(jié)則運用物理引擎進行運動合理性校驗。這種分層優(yōu)化策略使模型在人物口型匹配度、背景音效空間定位等指標(biāo)上達到行業(yè)領(lǐng)先水平。
實際應(yīng)用測試顯示,該模型在廣告制作、短視頻創(chuàng)作等領(lǐng)域展現(xiàn)出顯著優(yōu)勢。某影視公司試用后反饋,模型生成的宣傳片在人物表情自然度、場景轉(zhuǎn)換流暢性方面接近專業(yè)水準,但處理高速運動物體時仍存在形變問題。研發(fā)團隊透露,后續(xù)版本將重點優(yōu)化多角色交互場景的物理引擎,并計劃開放部分參數(shù)接口供創(chuàng)作者微調(diào)。







