字節跳動Seed團隊近期揭曉了其最新的技術成果——Seed LiveInterpret 2.0,這是一款中英雙向的端到端同聲傳譯系統,其延遲與準確率均逼近人類譯員的水準,標志著產品級語音同傳技術的重大突破。
該系統建立在全雙工語音理解與生成框架之上,支持中英互譯,并具備實時處理多人語音輸入的能力。與人工同傳相似,Seed LiveInterpret 2.0能夠在接收源語言語音的同時,近乎實時地輸出目標語言的翻譯語音,實現了“邊聽邊說”的功能。尤為該系統還引入了0樣本聲音復刻技術,進一步提升了溝通的流暢度和自然度。
在測試中,Seed LiveInterpret 2.0展現出了驚人的性能。面對長達40秒的中文表述,它能夠迅速且準確地轉化為英語,且延遲極低,翻譯過程如絲般順滑。該系統還具備快速學習并模仿說話人音色的能力,為翻譯增添了更多個性化的色彩。
相較于傳統的機器同傳系統,Seed LiveInterpret 2.0展現出了多方面的優勢。其翻譯準確率接近專業人類譯員,尤其在多人會議等復雜場景中,中英雙向翻譯的準確率超過了70%,在單人演講場景下更是達到了80%以上。在延遲方面,該系統采用了全雙工框架,使得翻譯延遲降低至2-3秒,相比傳統系統減少了超過60%,真正實現了實時翻譯。
聲音復刻技術也是該系統的一大亮點。通過實時采樣語音信號并提取聲音特征,Seed LiveInterpret 2.0能夠以說話人的音色特質實時“說出”外語,極大地增強了交流的沉浸感和親和力。同時,該系統還能智能地平衡翻譯質量、延遲和語音輸出節奏,根據語音的清晰度、流暢度和復雜程度調整輸出,確保翻譯的自然流暢。
目前,Seed LiveInterpret 2.0的技術報告已經對外公布,并基于火山引擎平臺開放。據悉,Ola Friend耳機也將在8月底接入該系統,成為首個支持Seed LiveInterpret 2.0的智能硬件設備,為用戶提供更為便捷、高效的同聲傳譯體驗。