meta基礎(chǔ)人工智能研究團隊FAIR近日宣布推出一項名為“全語種自動語音識別系統(tǒng)”(Omnilingual ASR)的創(chuàng)新技術(shù),該系統(tǒng)可支持超過1600種語言的語音轉(zhuǎn)寫功能,顯著擴大了現(xiàn)有語音識別技術(shù)的語言覆蓋范圍。這一突破性成果有望為全球語言多樣性保護與跨語言交流提供重要支持。
傳統(tǒng)語音識別工具主要聚焦于數(shù)百種資源豐富的語言,這些語言擁有大量標注音頻數(shù)據(jù)用于模型訓(xùn)練。然而全球現(xiàn)存7000余種語言中,絕大多數(shù)因缺乏訓(xùn)練數(shù)據(jù)而難以獲得人工智能技術(shù)支持。Omnilingual ASR的研發(fā)正是為了填補這一技術(shù)鴻溝,其支持的語種中包含500種此前從未被任何AI系統(tǒng)覆蓋的語言。
系統(tǒng)性能測試數(shù)據(jù)顯示,在1600種測試語言中,78%的語言實現(xiàn)了字符錯誤率(CER)低于10%的識別精度。當訓(xùn)練音頻時長達到10小時及以上時,這一比例提升至95%;即使對于訓(xùn)練數(shù)據(jù)不足10小時的“低資源語言”,仍有36%達到相同精度標準。研究團隊強調(diào),識別準確率與訓(xùn)練數(shù)據(jù)量呈現(xiàn)顯著正相關(guān)關(guān)系。
為推動技術(shù)普惠應(yīng)用,meta同步開放了“全語種ASR語料庫”(Omnilingual ASR Corpus),該數(shù)據(jù)集包含350種代表性不足語言的轉(zhuǎn)錄語音樣本,采用知識共享署名許可協(xié)議(CC-BY)供全球開發(fā)者與研究人員免費獲取。此舉旨在支持針對特定語言需求定制化開發(fā)語音識別模型。
系統(tǒng)核心創(chuàng)新在于“自帶語言”(Bring Your Own Language)功能,該機制借鑒大型語言模型的上下文學(xué)習技術(shù),允許用戶通過提供少量語音-文本配對樣本實現(xiàn)新語言適配。這種無需重新訓(xùn)練模型的技術(shù)路徑,使得系統(tǒng)理論上可擴展至支持5400余種語言,遠超當前行業(yè)水平。雖然極低資源語言的識別質(zhì)量仍待提升,但已為缺乏技術(shù)支撐的語言社區(qū)提供了可行解決方案。
在技術(shù)開源方面,meta以Apache 2.0協(xié)議開放了Omnilingual ASR全部模型代碼,配套數(shù)據(jù)集則采用CC-BY協(xié)議。模型家族提供從3億參數(shù)的輕量級版本到70億參數(shù)的高精度版本,適配從移動設(shè)備到云端服務(wù)的多樣化場景需求。所有模型均基于FAIR自主研發(fā)的PyTorch框架fairseq2構(gòu)建,為開發(fā)者提供了靈活的技術(shù)基礎(chǔ)。











