在 WMT2021 國際機器翻譯大賽上,字節(jié)跳動火山翻譯團隊以“并行翻譯”系統(tǒng)參賽,獲得德語到英語方向機器翻譯比賽自動評估第一名。“并行翻譯”在國際大賽首次亮相,就成功擊敗了從左向右逐詞翻譯的“自回歸模型”技術(shù),打破后者在機器翻譯領(lǐng)域的絕對統(tǒng)治地位。
據(jù)悉,WMT2021 是由國際計算語言學(xué)協(xié)會 ACL 舉辦的世界頂級機器翻譯比賽,德英語向是該賽事競爭最激烈的大語種項目之一。
火山翻譯團隊負責(zé)人介紹說,“自回歸模型”更接近人類閱讀習(xí)慣,逐詞按順序生成翻譯,每一個輸出的詞都依賴于之前的詞,當輸出文本較長或者模型比較復(fù)雜時,機器翻譯的速度很慢;“并行翻譯”則是由機器同步輸出所有的詞,可以充分利用并行計算,將翻譯速度提高數(shù)十倍。句子越長,速度提升越明顯。
“并行翻譯”的技術(shù)難點是如何組成連貫語句。對此,火山翻譯團隊采用了一項創(chuàng)新的漸進學(xué)習(xí)方式,由簡單到復(fù)雜、由片段到整句訓(xùn)練“并行翻譯”模型。在保持極高翻譯速度的同時,“并行翻譯”的質(zhì)量顯著提升。
火山翻譯團隊負責(zé)人坦言,在訓(xùn)練數(shù)據(jù)量小的場景下,“并行翻譯”的質(zhì)量相比傳統(tǒng)技術(shù)處于劣勢。但是當訓(xùn)練數(shù)據(jù)規(guī)模變大后,“并行翻譯”會逐漸縮小差距,甚至反超傳統(tǒng)技術(shù)。目前“并行翻譯”技術(shù)已應(yīng)用在火山翻譯產(chǎn)品中,用以支持字節(jié)跳動的部分業(yè)務(wù)。
在去年的 WMT2020 比賽中,火山翻譯獲得中英、德英、德法等 5 個語向翻譯冠軍,今年以全新技術(shù)奪魁更是一次重要的突破。據(jù)介紹,火山翻譯已支持 50 多個語種、近 3000 個語向的翻譯,不僅應(yīng)用在飛書、今日頭條等字節(jié)跳動旗下產(chǎn)品,也通過火山引擎向企業(yè)客戶提供技術(shù)服務(wù)。