在計算機視覺與人工智能的交匯點上,Soul App再次以其卓越的技術實力吸引了業界的目光。近日,Soul App提交的技術論文《Teller:基于自回歸運動生成技術的實時音頻驅動人像動畫》,成功被全球計算機視覺頂級會議CVPR 2025接納,標志著Soul在AI社交技術的探索上邁出了重要一步。
CVPR,作為計算機視覺領域的頂尖盛會,每年吸引著全球范圍內的頂尖學者與研究團隊投稿。據官方數據,CVPR 2025共收到13008篇投稿,而最終僅錄用2878篇,錄用率僅為22.1%,競爭之激烈不言而喻。Soul App的技術論文能夠脫穎而出,無疑是對其技術創新實力的有力證明。
其實,Soul在AI領域的探索早已有之。去年,Soul的多模態情感識別研究就曾入選ACM國際多媒體會議研討會,并在國際人工智能聯合會議的挑戰賽中榮獲半監督學習賽道的冠軍。從2016年推出的基于AI算法的靈犀引擎,到2023年自研語言大模型Soul X的問世,再到如今多模態端到端大模型的升級,Soul始終致力于AI社交技術的研發與創新。
此次被CVPR 2025錄用的論文,提出了一個全新的實時音頻驅動人像動畫框架。該框架將傳統的talking head任務巧妙地拆分為面部運動生成和高效身體運動生成兩個模塊,不僅顯著提高了視頻生成的效率,還使得生成效果更加自然、擬人。這一創新成果,是Soul在語音、視覺和自然語言處理(NLP)領域深度融合的又一力作,為AI社交交互體驗的真實感提升奠定了堅實基礎。
在此之前,Soul已經基于多模態大模型推出了語音交互功能,并收獲了用戶的廣泛好評。此次從語音到視覺的交互模態升級,將為用戶帶來更加沉浸式的社交體驗。通過這一技術,用戶可以在實時視頻通話中享受到更加自然流暢的交互,甚至在未來,這一技術還將應用于AI虛擬人的情感化陪伴等多元場景,進一步提升人機交互的情感溫度。
Soul在AI社交領域的持續深耕,不僅為用戶帶來了更加優質的體驗,也為整個行業的發展注入了新的活力。Soul的技術創新,不僅展現了AI技術在社交領域的巨大潛力,也為其他企業提供了寶貴的經驗和啟示。
Soul的技術創新并未止步于此。隨著AI技術的不斷發展,Soul將繼續探索AI在社交領域的更多應用可能,不斷推出更加智能、有趣的社交功能,為用戶打造更加溫馨、有趣的社交空間。
同時,Soul也將積極與業界同行交流合作,共同推動AI社交技術的發展和進步。通過開放合作、共享資源,Soul將與業界共同探索AI社交的未來之路,為用戶帶來更加豐富、多元的社交體驗。