7月24日消息,今日,字節跳動宣布正式發布端到端同聲傳譯模型Seed LiveInterpret 2.0。
據介紹,這是首個延遲&準確率接近人類水平的產品級中英語音同傳系統,在中英同傳翻譯質量達到業界SOTA的同時,實現了極低語音延遲水平。
字節跳動表示,該模型基于全雙工端到端語音生成理解框架,支持中英互譯。
可實時處理多人語音輸入,像人類同傳譯員一樣以極低的延遲“邊聽邊說”,一邊接收源語言語音輸入,一邊直接輸出目標語言的翻譯語音。
同時,Seed LiveInterpret 2.0還支持0樣本聲音復刻,溝通更流暢自然。
不過,目前模型主要支持中英互譯。
相比傳統機器同傳系統,Seed LiveInterpret 2.0具有以下四大優勢:
接近真人同傳的翻譯準確率
在多人會議等復雜場景中英雙向翻譯準確率超70%,單人演講翻譯準確率超80%,接近真人專業同傳水平。
極低延遲的“邊聽邊說”能力
翻譯延遲可低至2-3秒,較傳統機器同傳系統降低超60%。
零樣本聲音復刻
只需采樣實時語音信號,便能提取聲音特征,用說話人的音色特質實時“說出”外語。
智能平衡翻譯質量、延遲和語音輸出節奏
根據語音清晰度、流暢度、復雜程度,調整輸出節奏,并適配不同語言特性。
模型測評結果顯示,在語音到文本同傳任務中,Seed LiveInterpret 2.0中英互譯平均翻譯質量的人類評分達到74.8(評估譯文準確率,滿分100),較排名第二的基準系統(47.3分)超出58%。
在語音到語音任務中,業界僅3個翻譯系統支持該能力,其中Seed LiveInterpret 2.0中英互譯平均翻譯質量達到66.3分(除評估譯文準確率,還評估語音輸出時延、語速、發音、流暢性等指標,滿分100),遠超其他基準系統,達到接近專業真人同傳的水平。
同時,大部分基準系統也不支持聲音復刻功能。
在延遲表現上,Seed LiveInterpret 2.0在語音到文本場景中,輸出首字平均延遲僅2.21秒,在語音到語音場景中,輸出延時僅2.53秒,做到了對翻譯質量以及時延的均衡。