Amazon本周發(fā)布名為MASSIVE的資料集,供開發(fā)商訓(xùn)練能理解多種語言的數(shù)字助理使用的AI模型。
到2023年全球?qū)⒁蛑悄苁謾C(jī)的普及而有80多億個AI虛擬助理,還有超過1億臺智能音箱。然而大部分虛擬助理都僅能使用1種或僅數(shù)種主流語言。此外這些數(shù)字助理的訓(xùn)練還面臨標(biāo)注資料不足、去除資料訛誤、維護(hù)和更新模型的成本等問題,進(jìn)一步限制了數(shù)字助理的口語翻譯的能力。
大量多語自然語言理解(massively multilingual natural-language understanding,MMNLU)模型即希望解決這個問題。Amazon Alexa AI自然語言理解部門科學(xué)家Jack FitzGerald指出,這愿景下,單一機(jī)器學(xué)習(xí)模型能分析和理解多種語言。通過學(xué)習(xí)跨語言的共享資料展現(xiàn)(data representation),這個模型可以從有很豐富訓(xùn)練資料的主流語言學(xué)習(xí)到的知識,轉(zhuǎn)移到資料很稀少的語言上。
為推動MMNLU模型創(chuàng)建,Amazon宣布發(fā)布MASSIVE資料集。MASSIVE資料集包含跨51種語言加注過的100萬項(xiàng)話語或單詞(utterance)及開源程序代碼。資料集包括訓(xùn)練、驗(yàn)證和測試資料,后者則提供MMNLU模型的執(zhí)行范例,協(xié)助AI項(xiàng)目人員創(chuàng)建意圖分類(intent classification)或詞槽填充(Slot Filling)的結(jié)果基準(zhǔn)線(baseline)。
MASSIVE為平行資料集,意味每個單詞都有51種語言版本,這可讓模型學(xué)習(xí)到同一意圖的共享表達(dá)方式,可加速自然語言理解(NLP)任務(wù)的跨語言訓(xùn)練,也能用于其他NLP任務(wù),如機(jī)器翻譯、多語復(fù)述(multilingual paraphrasing)等等。MASSIVE通過CC BY 4.0授權(quán)開源,以鼓勵學(xué)界及業(yè)界使用。
Amazon同時還宣布MMNLU-22競賽(Massively Multilingual NLU 2022),鼓勵開發(fā)人員利用MASSIVE資料集創(chuàng)建模型。
關(guān)鍵詞: AWS開源支持51種語言的數(shù)字助理AI訓(xùn)練資料集程序代碼