日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

英偉達用 AI 給紀錄片配音:情緒節奏穩穩拿捏,不說根本聽不出來

   時間:2021-09-01 16:11:13 來源:量子位編輯:星輝 發表評論無障礙通道

雖然日常和你對話的 Siri 聲音機械,還常常胡亂斷句,但實際上,最新的技術進展顯示,AI 的語音合成能力已經可以說得上是以假亂真。

比如英偉達,最近就發布了一個更懂節奏、更具感情的語音合成 AI。

在英偉達的紀錄片中,她的自我介紹口齒清晰自不必說,氣息頓挫、情緒把控,播音員范兒絕對夠正。

幀級控制合成語音

英偉達將在 9 月 3 日的語音技術頂會 Interspeech 2021 上展示該項目的最新成果。

不過,其背后的技術,此前就已經幫助自家數字人在 SIGGRAPH Real-Time Live 上摘下了最佳展示獎。

核心是名為 RAD-TTS 的語音合成方法。

這是一個并行的端到端 TTS 模型。與此前的并行方法不同,RAD-TTS 將語音節奏作為一個單獨的生成分布來建模。如此,在推理過程中,語音的持續時間就能被更好地控制。

從 RAD-TTS 的演示界面中也可以看出,用戶可以在幀級別上控制合成語音的音調、持續時間和節奏力度。

研究人員還介紹,RAD-TTS 既可以將任意文本轉換成說話人的聲音,也可以將一個說話人的聲音(甚至是歌聲)轉換成另一個人的聲音。

也就是說,合成語音的制作人可以像指導配音演員一樣去“指導”AI,讓它學會哪個單詞應該重點突出、節奏如何把控更符合創作基調等等。

機器語音能有多真實?

其實,不只是英偉達,此前,小冰也發布過超級自然語音技術。

把一句人類的語音混進小冰的語音里,你能分辨到底哪一句來自真正的人類嗎?

不過,小冰公司 CEO 李笛此前曾表示,AI 的聲音太接近真人,就很有可能被濫用。因此小冰禁止為普通個人訓練聲音。

但這樣的技術,也正在通過電臺、便利店等更多商業場景,走進人們的日常生活。

參考鏈接:

[1] 論文地址:https://openreview.net/forum?id=0NQwnnwAORi

[2]https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 图片| 昂仁县| 井冈山市| 武宁县| 新昌县| 濮阳县| 林甸县| 麻城市| 宾阳县| 扬中市| 名山县| 三明市| 漠河县| 阿合奇县| 手游| 门源| 乌拉特前旗| 鹿泉市| 常山县| 南川市| 乌拉特中旗| 靖州| 武乡县| 景谷| 绥德县| 广安市| 石门县| 上林县| 贡山| 华坪县| 泽普县| 温泉县| 陇西县| 石屏县| 乡城县| 礼泉县| 苍山县| 许昌县| 蓬莱市| 昆明市| 枞阳县|