日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

阿里通義萬(wàn)相VACE開(kāi)源:視頻編輯迎來(lái)一站式創(chuàng)新模型

   時(shí)間:2025-05-15 08:57:02 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) IP:北京 發(fā)表評(píng)論無(wú)障礙通道

近日,視頻編輯技術(shù)領(lǐng)域迎來(lái)了一次革命性的進(jìn)展,通義萬(wàn)相正式宣布將其創(chuàng)新的視頻編輯模型VACE進(jìn)行開(kāi)源。此次推出的VACE包含兩個(gè)版本,Wan2.1-VACE-1.3B支持480P分辨率的視頻處理,而更高規(guī)格的Wan2.1-VACE-14B則進(jìn)一步支持到720P分辨率,為用戶(hù)提供更多選擇。

VACE的問(wèn)世,徹底顛覆了傳統(tǒng)的視頻創(chuàng)作模式。用戶(hù)無(wú)需再在各種模型和工具之間來(lái)回切換,僅憑VACE即可實(shí)現(xiàn)從文字生成視頻、圖像參考生成、局部編輯到視頻擴(kuò)展等一系列操作,極大地提升了創(chuàng)作的便捷性和效率。這一站式視頻創(chuàng)作體驗(yàn),讓視頻編輯變得更加靈活和高效。

VACE的核心競(jìng)爭(zhēng)力在于其強(qiáng)大的可控重繪能力。通過(guò)基于人體姿態(tài)、運(yùn)動(dòng)光流、結(jié)構(gòu)保持、空間運(yùn)動(dòng)和著色等多種控制生成技術(shù),VACE能夠輕松實(shí)現(xiàn)視頻生成后的細(xì)致調(diào)整。它還支持基于主體和背景參考的視頻生成,使得調(diào)整人物姿態(tài)、動(dòng)作軌跡或場(chǎng)景布局等操作變得易如反掌。這一能力的背后,是VACE先進(jìn)的多模態(tài)輸入機(jī)制。

VACE的多模態(tài)輸入機(jī)制將文本、圖像、視頻、Mask和控制信號(hào)等多種輸入形式整合到一個(gè)統(tǒng)一的系統(tǒng)中。無(wú)論是圖像輸入中的物體參考圖或視頻幀,還是視頻輸入中的抹除、局部擴(kuò)展等操作,VACE都能應(yīng)對(duì)自如。用戶(hù)還可以通過(guò)0/1二值信號(hào)來(lái)指定編輯區(qū)域,并通過(guò)深度圖、光流、布局、灰度、線稿和姿態(tài)等控制信號(hào)來(lái)進(jìn)一步精確控制。

VACE不僅支持對(duì)視頻內(nèi)容的替換、增加和刪除等操作,還能在時(shí)間維度上根據(jù)任意片段或首尾幀補(bǔ)全整個(gè)視頻時(shí)長(zhǎng)。在空間維度上,VACE同樣表現(xiàn)出色,能夠?qū)Ξ?huà)面邊緣或背景區(qū)域進(jìn)行擴(kuò)展生成,如背景替換功能,可以在保留主體不變的前提下,根據(jù)Prompt更換背景環(huán)境。這些功能的實(shí)現(xiàn),得益于VACE強(qiáng)大的多模態(tài)輸入模塊和Wan2.1的卓越生成能力。

更VACE還支持多種單任務(wù)能力的自由組合,打破了傳統(tǒng)專(zhuān)家模型各自為戰(zhàn)的限制。作為統(tǒng)一模型,VACE能夠自然融合文生視頻、姿態(tài)控制、背景替換、局部編輯等原子能力,無(wú)需為單一功能單獨(dú)訓(xùn)練新模型。這種靈活組合機(jī)制不僅簡(jiǎn)化了創(chuàng)作流程,還極大地拓展了AI視頻生成的創(chuàng)意邊界。

例如,通過(guò)組合圖片參考與主體重塑功能,VACE可以實(shí)現(xiàn)視頻中物體的替換;通過(guò)組合運(yùn)動(dòng)控制與首幀參考功能,則可以實(shí)現(xiàn)靜態(tài)圖片的姿態(tài)控制。還可以將圖片參考、首幀參考、背景擴(kuò)展與時(shí)長(zhǎng)延展功能相結(jié)合,將豎版圖拓展為橫屏視頻,并在其中加入?yún)⒖紙D片中的元素。這些功能的實(shí)現(xiàn),都得益于VACE提出的靈活統(tǒng)一的輸入范式——視頻條件單元VCU。

VCU將多模態(tài)的各類(lèi)上下文輸入總結(jié)為文本、幀序列、mask序列三大形態(tài),從而在輸入形式上統(tǒng)一了四類(lèi)視頻生成與編輯任務(wù)。VCU的幀序列和Mask序列在數(shù)學(xué)上可以相互疊加,為多任務(wù)的自由組合創(chuàng)造了有利條件。在技術(shù)實(shí)現(xiàn)方面,VACE需要解決的一大難題是如何將多模態(tài)輸入統(tǒng)一編碼為擴(kuò)散Transformer可處理的token序列。為此,VACE對(duì)VCU輸入中的frame序列進(jìn)行概念解耦,并通過(guò)隱空間編碼和可訓(xùn)練參數(shù)映射等步驟,成功將多模態(tài)輸入轉(zhuǎn)化為DiT的token序列。

在訓(xùn)練策略上,VACE對(duì)比了全局微調(diào)與上下文適配器微調(diào)兩種方案,并最終選擇了收斂速度更快且能避免基礎(chǔ)能力丟失風(fēng)險(xiǎn)的上下文適配器微調(diào)方法。通過(guò)定量評(píng)測(cè)可以看出,相比1.3Bpreview版本,本次開(kāi)源的VACE系列模型在多個(gè)關(guān)鍵指標(biāo)上均有顯著提升。

對(duì)于廣大開(kāi)發(fā)者而言,VACE的開(kāi)源無(wú)疑是一個(gè)巨大的福音。他們可以通過(guò)GitHub(https://github.com/Wan-Video/Wan2.1)、魔搭(https://modelscope.cn/organization/Wan-AI)、Hugging Face(https://huggingface.co/Wan-AI)等平臺(tái)獲取VACE的源代碼和模型資源,并在國(guó)內(nèi)站(https://tongyi.aliyun.com/wanxiang/)和國(guó)際站(https://wan.video)上獲取更多信息和支持。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 房产| 大同县| 瑞昌市| 南阳市| 木兰县| 平武县| 铁岭市| 三河市| 甘德县| 沙坪坝区| 滦南县| 西藏| 桂林市| 太康县| 通江县| 泰和县| 江永县| 安陆市| 武定县| 兴化市| 海宁市| 雅江县| 阳信县| 如皋市| 灌阳县| 田东县| 来凤县| 恩施市| 东丽区| 历史| 玛曲县| 五大连池市| 尖扎县| 巧家县| 陇川县| 卓资县| 潍坊市| 德庆县| 江安县| 清苑县| 五大连池市|