在2025科大訊飛1024開發(fā)者節(jié)上,一款名為“小飛”的多模態(tài)數(shù)字人導(dǎo)覽正式登場,標(biāo)志著人工智能服務(wù)向真實物理空間邁出重要一步。這款數(shù)字人突破了傳統(tǒng)問答交互的局限,不僅能夠與多人進行自由對話,還支持多語種實時交流,更具備個性化記憶功能——通過記錄訪客歷史信息,提供諸如天氣提醒、日程建議等貼心服務(wù)。
“小飛”的核心競爭力源于八項技術(shù)的深度融合,包括遠(yuǎn)場語音識別、3D視覺感知、情感語義理解等。科大訊飛董事長劉慶峰在現(xiàn)場演示中強調(diào),這些能力讓AI不再是手機里的應(yīng)用程序,而是能感知環(huán)境、理解情緒的“類人”伙伴。例如,當(dāng)訪客用方言提問時,“小飛”可自動切換方言模式;當(dāng)檢測到用戶情緒低落時,它會主動調(diào)整語氣并推薦舒緩音樂。
更令人矚目的是其形象變換功能。通過動態(tài)骨骼綁定技術(shù),“小飛”能在0.5秒內(nèi)切換為林黛玉、宇航員等數(shù)十種虛擬形象,甚至可根據(jù)場景需求調(diào)整服飾細(xì)節(jié)。在文旅場景中,它可化身歷史人物講解文物故事;在教育場景中,則能扮演虛擬教師進行互動教學(xué)。
同期發(fā)布的“百變聲音復(fù)刻”技術(shù)同樣引發(fā)關(guān)注。該技術(shù)基于星火語音大模型,用戶僅需提供10秒原始音頻,即可生成高保真數(shù)字音色。更突破性的是,通過指令調(diào)整可自由改變聲音風(fēng)格——同一音色既能演繹新聞播報的莊重感,也能切換為動漫角色的俏皮腔調(diào)。這項技術(shù)已與多家有聲讀物平臺達(dá)成合作,未來用戶上傳聲音后,可自動生成個人專屬有聲書庫。
技術(shù)團隊透露,聲音復(fù)刻的保真度達(dá)到98.7%,情感表現(xiàn)力較傳統(tǒng)技術(shù)提升40%。在現(xiàn)場測試中,系統(tǒng)成功復(fù)刻了跨年齡、跨性別的聲音特征,甚至能模擬特定疾病患者的發(fā)聲狀態(tài)。這項突破或?qū)⒅厮軆?nèi)容創(chuàng)作生態(tài),從播客制作到虛擬偶像運營,都將迎來個性化定制的新時代。











