在智能文檔翻譯領(lǐng)域,亞馬遜云科技展現(xiàn)出了其深厚的技術(shù)積累與創(chuàng)新實(shí)力。近日,亞馬遜云科技解決方案開發(fā)團(tuán)隊(duì)的胡一凱,在一次演講中深入分享了該公司在智能文檔翻譯方面的實(shí)踐經(jīng)驗(yàn),為業(yè)界帶來了諸多啟示。
胡一凱首先提到了與一家跨國醫(yī)療器械公司的合作案例。這家公司需要將大量的核磁共振說明書從英文翻譯成中文,且對(duì)術(shù)語的準(zhǔn)確性有著極高的要求。然而,傳統(tǒng)的翻譯方式不僅耗時(shí)長,而且難以滿足客戶對(duì)術(shù)語準(zhǔn)確性的高標(biāo)準(zhǔn)。亞馬遜云科技接手后,面臨著如何在保證翻譯效率的同時(shí),確保術(shù)語翻譯的準(zhǔn)確性,并遵循企業(yè)內(nèi)部文風(fēng)要求的挑戰(zhàn)。
針對(duì)術(shù)語翻譯的準(zhǔn)確性問題,亞馬遜云科技采取了多種策略。最初,他們嘗試將術(shù)語直接嵌入到模型的上下文中,這種方法在術(shù)語數(shù)量較少時(shí)效果尚可。然而,隨著術(shù)語數(shù)量的增加,這種方法開始顯現(xiàn)出局限性。為了突破這一瓶頸,他們引入了AC自動(dòng)機(jī)算法,通過內(nèi)存中的鍵值匹配,實(shí)現(xiàn)了毫秒級(jí)別的術(shù)語檢索,從而大大提高了術(shù)語翻譯的準(zhǔn)確性和效率。但面對(duì)更大規(guī)模的術(shù)語庫,AC自動(dòng)機(jī)也顯得力不從心,這時(shí)他們采用了OpenSearch Percolator緩存,它利用術(shù)語作為索引,可以迅速檢索出與輸入文本匹配的術(shù)語,完美適應(yīng)了大規(guī)模術(shù)語庫的翻譯場(chǎng)景。
在滿足企業(yè)內(nèi)部文風(fēng)要求方面,亞馬遜云科技同樣展現(xiàn)出了創(chuàng)新思維。他們意識(shí)到,每個(gè)企業(yè)都有其獨(dú)特的文風(fēng)和文化背景,因此在翻譯過程中必須充分尊重并遵循這些要求。為此,他們引入了樣例庫的概念,通過收集客戶的歷史翻譯文件,構(gòu)建了一個(gè)包含豐富文風(fēng)信息的知識(shí)庫。在翻譯過程中,他們利用這個(gè)知識(shí)庫來指導(dǎo)大模型的翻譯,從而確保翻譯結(jié)果能夠符合客戶的文風(fēng)要求。他們還結(jié)合了RAG(檢索增強(qiáng)生成)和FuseShot技術(shù),構(gòu)建了一個(gè)Web知識(shí)庫,進(jìn)一步提升了翻譯效果。
在解決翻譯內(nèi)容的準(zhǔn)確性之后,亞馬遜云科技還面臨著工程化方面的挑戰(zhàn)。特別是在PDF文檔的翻譯過程中,他們遇到了信息濃度差異、格式遵循和空間利用等一系列問題。為了解決這些問題,他們采用了動(dòng)態(tài)遞歸算法、動(dòng)態(tài)評(píng)估方式和雙指針?biāo)惴ǖ认冗M(jìn)技術(shù),確保了翻譯后的PDF文檔在格式、排版和可讀性方面都能達(dá)到客戶的期望。
與PDF文檔相比,Word文檔的翻譯過程相對(duì)簡(jiǎn)單一些。亞馬遜云科技利用Word文檔的XML結(jié)構(gòu)特性,通過解析、翻譯和渲染三個(gè)步驟,輕松實(shí)現(xiàn)了Word文檔的智能翻譯。這一過程中,他們充分利用了開源包和亞馬遜云科技自身的技術(shù)優(yōu)勢(shì),確保了翻譯效率和準(zhǔn)確性。
為了將上述技術(shù)整合成一個(gè)完整的解決方案,亞馬遜云科技為客戶開發(fā)了一個(gè)試用的前端系統(tǒng)。用戶可以通過這個(gè)系統(tǒng)上傳術(shù)語庫和待翻譯的文檔,然后進(jìn)行翻譯和預(yù)覽。整個(gè)系統(tǒng)基于Amazon CDK編寫,可以在用戶的云環(huán)境中一鍵部署,大大簡(jiǎn)化了操作流程。
在演講的最后部分,胡一凱提到了專業(yè)翻譯領(lǐng)域的飛輪效應(yīng)。他認(rèn)為,通過不斷積累和優(yōu)化內(nèi)部語料資產(chǎn)(如術(shù)語庫、文風(fēng)樣例庫等),并結(jié)合亞馬遜云科技的智能翻譯工序,可以形成一個(gè)正向循環(huán)。這個(gè)循環(huán)不僅有助于提升翻譯質(zhì)量和效率,還可以將積累的數(shù)據(jù)資產(chǎn)應(yīng)用到智能寫作審核、AI校對(duì)等新的領(lǐng)域,為企業(yè)帶來更多的價(jià)值。
總的來說,亞馬遜云科技在智能文檔翻譯領(lǐng)域的實(shí)踐經(jīng)驗(yàn)為我們提供了寶貴的借鑒。他們通過技術(shù)創(chuàng)新和工程化實(shí)踐,成功解決了術(shù)語準(zhǔn)確性、文風(fēng)遵循和工程化挑戰(zhàn)等一系列問題,為企業(yè)的智能化轉(zhuǎn)型提供了有力的支持。