近日,快手旗下可靈AI推出了一項創新的數字人生成功能,用戶只需上傳一張角色圖片并輸入文字或音頻內容,即可生成分辨率達1080p、幀率48FPS的數字人視頻,最長支持1分鐘時長。目前該功能已進入公測階段,正逐步向用戶開放。
這項技術依托多模態理解與視頻生成模型的深度融合,實現了口型與語音的精準同步,同時支持對情緒和動作的精細控制。其核心架構采用基于Transformer的DiT模型,在處理時序信息與細節控制方面表現突出,能夠準確解析面部特征、理解音頻語義,并依據語音內容自動生成符合情境的面部表情和微動作,確保數字人在視頻中的形象一致性。
在應用場景上,該功能支持多種角色類型,涵蓋真人形象、動畫角色甚至動物角色,同時兼容中文、英語、日語、韓語等多語言輸入,可滿足跨文化、跨領域的多樣化需求。價格方面,結合會員優惠方案,單秒使用成本最低可降至0.12元。
目前,用戶可通過可靈AI官方網站體驗這一功能。隨著技術持續優化及API接口的開放,該數字人功能有望與更多第三方平臺和應用實現深度整合,逐步構建起覆蓋多場景的生態體系。