東北大學(xué)“小牛翻譯”團(tuán)隊近日宣布開源其最新研發(fā)的多語言翻譯大模型NiuTrans.LMT,該模型支持60種語言的雙向互譯,覆蓋234個翻譯方向,不僅構(gòu)建了以中文和英文為核心的全語種橋梁,更在藏語、阿姆哈拉語等29種低資源語言翻譯領(lǐng)域?qū)崿F(xiàn)重大突破,為全球語言平等提供了關(guān)鍵技術(shù)支撐。
與傳統(tǒng)翻譯模型依賴英語作為單一樞紐不同,NiuTrans.LMT采用中-英雙中心架構(gòu)設(shè)計。這一創(chuàng)新模式支持中文與58種語言、英文與59種語言的直接高質(zhì)量互譯,避免了傳統(tǒng)“中文→英文→小語種”路徑可能導(dǎo)致的語義失真。尤其對“一帶一路”沿線國家而言,該架構(gòu)顯著提升了中文與當(dāng)?shù)卣Z言的溝通效率,推動了跨文化交流的去中介化進(jìn)程。
在語言資源覆蓋方面,模型通過三級分層策略實現(xiàn)效率與公平的平衡:針對法語、阿拉伯語等13種高資源語言,翻譯質(zhì)量已達(dá)到人類水平;印地語、芬蘭語等18種中資源語言的翻譯在專業(yè)術(shù)語和語法結(jié)構(gòu)上保持高度準(zhǔn)確性;針對藏語、斯瓦希里語等29種低資源語言,通過數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)技術(shù),成功突破了“不可譯”的技術(shù)瓶頸,使這些語言的翻譯從“無法使用”提升至“可用”水平。
該模型在FLORES-200多語言基準(zhǔn)測試中表現(xiàn)優(yōu)異,位居全球開源模型首位。其卓越性能源于獨(dú)特的兩階段訓(xùn)練方法:在包含900億tokens的多語言語料庫中進(jìn)行均衡預(yù)訓(xùn)練,確保小語種數(shù)據(jù)不被稀釋;隨后通過整合FLORES-200、WMT等權(quán)威數(shù)據(jù)集(含56.7萬條樣本、覆蓋117個翻譯方向)進(jìn)行監(jiān)督微調(diào),優(yōu)化翻譯準(zhǔn)確性和風(fēng)格一致性。
為滿足不同應(yīng)用場景需求,團(tuán)隊同步開源了四種參數(shù)規(guī)模的模型版本,包括0.6B、1.7B、4B和8B。其中輕量級版本可在消費(fèi)級GPU上運(yùn)行,適用于移動端部署;8B版本則面向企業(yè)級高精度需求,支持API集成和私有化部署。所有模型均已在GitHub和Hugging Face平臺開放下載。
行業(yè)觀察人士指出,NiuTrans.LMT的開源不僅代表技術(shù)突破,更體現(xiàn)了對語言多樣性保護(hù)的實際行動。當(dāng)AI能夠精準(zhǔn)傳遞藏語詩歌的韻律、非洲諺語的智慧或北歐古語的內(nèi)涵時,技術(shù)才真正具備了人文溫度。這項成果為構(gòu)建無語言障礙的數(shù)字世界奠定了重要基礎(chǔ)。
項目開源地址:https://github.com/NiuTrans/LMT














