近日,通義萬相正式發(fā)布Wan2.2-Animate模型,該模型以“單張人物圖片+動(dòng)態(tài)視頻”為輸入,可實(shí)現(xiàn)動(dòng)作遷移與角色替換功能。無論是讓靜態(tài)角色完成舞蹈復(fù)現(xiàn),還是將影視作品中的主演替換為其他形象,均能生成具有電影級(jí)質(zhì)感的動(dòng)態(tài)畫面,適用于劇情魔改、影視后期換人等創(chuàng)意場景。
該模型通過四大核心技術(shù)實(shí)現(xiàn)突破性進(jìn)展。在架構(gòu)設(shè)計(jì)上,采用統(tǒng)一模型范式,將“圖生動(dòng)作”(Move模式)與“視頻換人”(Mix模式)整合為同一符號(hào)系統(tǒng),模型可根據(jù)輸入內(nèi)容自動(dòng)切換生成模式,避免了獨(dú)立訓(xùn)練兩個(gè)模型的資源消耗,顯著提升開發(fā)效率。
在動(dòng)作與表情控制方面,模型將控制信號(hào)拆分為身體運(yùn)動(dòng)與面部表情兩部分。身體動(dòng)作通過VitPose提取的2D骨骼信號(hào)注入初始噪聲潛在向量,確保動(dòng)作遷移的精準(zhǔn)性;面部表情則直接編碼參考視頻的原始人臉圖像為幀級(jí)隱式特征,通過時(shí)序?qū)R交叉注意力機(jī)制實(shí)現(xiàn)細(xì)節(jié)復(fù)現(xiàn),避免傳統(tǒng)關(guān)鍵點(diǎn)標(biāo)記導(dǎo)致的信息丟失,可完美還原微表情變化。
針對角色替換后的光影適配問題,模型在Mix模式下引入Relighting LoRA模塊,基于IC-Light合成數(shù)據(jù)訓(xùn)練,能夠同步學(xué)習(xí)目標(biāo)視頻的環(huán)境光照與色彩風(fēng)格。該技術(shù)使新角色與原場景的光影效果自然融合,而非簡單疊加,且支持包含運(yùn)鏡、鏡頭抖動(dòng)等復(fù)雜動(dòng)態(tài)的視頻處理。
為推動(dòng)技術(shù)普惠,模型開源了完整工作流,包括模板視頻處理代碼(將驅(qū)動(dòng)視頻轉(zhuǎn)換為模板文件)與模型推理代碼(基于模板文件和角色圖片生成最終視頻)。這一舉措為姿態(tài)驅(qū)動(dòng)類模型的優(yōu)化提供了基礎(chǔ)工具支持。
目前,用戶可通過通義萬相官網(wǎng)的國內(nèi)與國際站點(diǎn)在線體驗(yàn)該功能,僅需上傳人物圖片與視頻即可生成效果。開發(fā)者則可通過阿里云百煉平臺(tái)接入API,模型代碼已同步發(fā)布于ModelScope、Hugging Face及GitHub三大開源平臺(tái),便于進(jìn)行二次開發(fā)與創(chuàng)意實(shí)踐。