日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

聲網開源TEN VAD與Turn Detection,賦能Voice Agent對話更自然流暢

   時間:2025-05-20 14:35:19 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

聲網與RTE開發者社區攜手,近期宣布了兩項重要成果:TEN VAD與TEN Turn Detection模型的開源。這兩款模型是聲網基于其超過十年的實時語音技術研究,以及超低延遲技術積累所打造的,旨在大幅提升AI Agent的交互體驗,使其更加自然流暢。作為開源項目,全球開發者均可自由使用、修改和貢獻代碼,它們也將作為開源對話式AI生態體系TEN的核心組件,持續進行優化迭代。

TEN VAD,一款輕量級、高性能的語音活動檢測模型,憑借其超低延遲、低功耗和高準確率的特點,在語音輸入大語言模型前的預處理階段發揮著重要作用。它能夠精確識別音頻中的人聲,并有效過濾掉背景噪音和靜音段,不僅提升了語音識別(STT)的準確性,還顯著降低了處理成本。與WebRTC Pitch VAD和Silero VAD相比,TEN VAD在公開測試集上展現出了更優越的表現,特別是在延遲方面,TEN VAD能夠快速檢測語音與非語音的切換,避免了因延遲導致的交互不暢。

TEN VAD已在Hugging Face和GitHub上開源,并配備了人工精標的數據集,方便開發者進行模型推理和評估。實際應用中,一個真實用戶案例顯示,使用TEN VAD后,音頻傳輸數據量減少了62%,語音服務成本大幅降低。

另一款模型,TEN Turn Detection,則專注于解決人機對話中的一大難題:判斷用戶何時停止說話。在真實交流中,AI需要準確區分用戶的“中途停頓”與“表達完畢”,以避免插話打斷或回應遲緩。TEN Turn Detection支持全雙工語音交互,允許用戶和AI同時說話,使對話更加自然。該模型通過分析語言模式,判斷說話者的狀態,從而智能決定AI是“說”還是“聽”,支持中英文,可供所有Voice Agent開發者使用。

在多場景測試數據集上,TEN Turn Detection與其他同類開源模型相比,表現出了優越的性能。當TEN VAD與TEN Turn Detection結合使用時,可以打造出更自然、反應更迅速、成本更低的Voice Agent。這兩款模型都基于聲網深厚的實時語音研究經驗,擁有超低延遲、低功耗和高準確率的特點,且完全開源,采用Apache 2.0許可證。

使用這兩款模型,AI Agent能夠正確處理“打斷”、“停頓”、“回應”等人類式交互,極大提升用戶體驗。同時,由于VAD能夠準確識別語音幀,有效減少語音識別調用量,實測結果顯示,兩者合用能大幅降低總系統成本。這兩款模型還可以作為TEN framework的插件模塊使用,對于已經使用TEN framework的開發者,支持無縫集成;對于正在選型AI Agent框架的團隊,TEN無疑是具備最佳VAD和輪次檢測能力的選擇之一。

為了快速體驗這兩款模型,開發者可以登錄Hugging Face,打開TEN Agent Demo,進行模型測試和評估。這一開源舉措,不僅為開發者提供了高質量的語音處理工具,也推動了對話式AI技術的進一步發展。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 平阳县| 大宁县| 开化县| 旬阳县| 高邮市| 汶上县| 瑞丽市| 安阳市| 芦山县| 图木舒克市| 雅安市| 连城县| 秀山| 郯城县| 翁牛特旗| 郯城县| 丹寨县| 囊谦县| 城口县| 曲水县| 通化市| 泾川县| 河北区| 左贡县| 台北市| 娄底市| 高雄县| 宁晋县| 阜南县| 铜山县| 高州市| 鹰潭市| 海口市| 平塘县| 汉寿县| 维西| 桑日县| 陆丰市| 周口市| 余庆县| 手机|