近日,一款名為可靈AI的數字人產品正式進入公眾視野,憑借其精準的口型同步技術、細膩的情緒演繹能力以及跨風格角色生成優勢,迅速成為數字人技術領域的標桿產品。用戶僅需上傳一張角色圖片并輸入文字或音頻,即可生成分辨率達1080p、幀率48FPS的高質量數字人視頻,最長支持1分鐘時長,覆蓋中英日韓等多語種,價格低至每秒0.12元,為廣告、電商、教育等行業提供了高效解決方案。
該產品的核心突破在于“極簡輸入、高質輸出”的生成模式。用戶既可上傳自有素材,也能使用內置的官方形象庫、AI生圖功能及近百種TTS音色,完成從角色創建到配音的全流程操作。這種“一站式”設計大幅降低了技術門檻,使中小企業和內容創作者無需專業團隊即可制作高品質數字人視頻。例如,在產品講解場景中,用戶僅需一張商品圖片和一段解說詞,便能快速生成具有專業表現力的數字人導購視頻。
在角色表現力方面,可靈AI展現了深厚的技術積累。實測案例顯示,當輸入一段英文歌曲音頻時,數字人歌手的唇形與歌詞音節完美匹配,即使面對快速連讀也能保持精準同步。更引人注目的是,通過提示詞“眼神專注自信地唱歌”,系統不僅控制了唇部動作,還生成了持麥姿態、微笑互動等細節,完整還原了舞臺表演的真實感。這種“神形兼備”的演繹能力,突破了傳統數字人僅實現音畫同步的局限。
跨風格角色生成是該產品的另一大亮點。依托可靈視頻模型的強大泛化能力,系統可處理寫實人物、動漫形象甚至動物角色。在卡通貓咪唱英文Rap的案例中,數字人不僅精準捕捉音頻節奏,還生成了隨節奏搖擺身體的自然動作,賦予虛擬角色鮮活的生命力。這種跨越風格界限的能力,為內容創作提供了更廣闊的想象空間。
情緒與動作的精細化控制,進一步提升了數字人的表現深度。在表現“憤怒”情緒的測試中,系統根據提示詞“內心全是氣憤,非常生氣”,生成了緊鎖眉頭、緊抿嘴唇、眼神壓迫感等微表情,將抽象情緒轉化為具象視覺語言。這種能力源于多模態理解大模型與視頻生成模型的深度融合,使數字人不僅能“聽聲音”,更能“懂意圖”,從而精準規劃長視頻中的情緒變化、動作設計及運鏡邏輯。
技術層面,可靈AI通過交叉注意力機制實現音畫高度對齊,結合強化口型的訓練策略,確保多語種、歌唱或快速語速場景下的唇形精準度。其關鍵幀控制架構采用“先構建敘事骨架,再并行生成片段”的方式,在保持角色身份一致的前提下,支持無限長度視頻生成。專業評測顯示,與行業知名產品Heygen及即夢數字人(Omnihuman-1方案)對比,可靈AI在整體效果及細分維度上均表現優異,GSB得分分別達到1.37和2.39,位居行業前列。
作為全球領先的視頻生成大模型,可靈AI自2024年6月發布以來已完成超30次迭代,用戶規模突破4500萬,生成視頻數量超2億,并為超過2萬家企業提供API服務,覆蓋影視、游戲、廣告等多個領域。此次數字人產品的推出,將進一步推動技術普惠化,助力短視頻制作、電商直播、在線教育等場景實現規?;瘧谩?/p>