性色aⅴ一区二区三区很牛影视,久久国产乱子伦精品噜噜,一级做a爰片久久毛片潮喷网站

Amazon本周發(fā)布名為MASSIVE的資料集，供開發(fā)商訓(xùn)練能理解多種語言的數(shù)字助理使用的AI模型。

到2023年全球?qū)⒁蛑悄苁謾C(jī)的普及而有80多億個AI虛擬助理，還有超過1億臺智能音箱。然而大部分虛擬助理都僅能使用1種或僅數(shù)種主流語言。此外這些數(shù)字助理的訓(xùn)練還面臨標(biāo)注資料不足、去除資料訛誤、維護(hù)和更新模型的成本等問題，進(jìn)一步限制了數(shù)字助理的口語翻譯的能力。

大量多語自然語言理解（massively multilingual natural-language understanding，MMNLU）模型即希望解決這個問題。Amazon Alexa AI自然語言理解部門科學(xué)家Jack FitzGerald指出，這愿景下，單一機(jī)器學(xué)習(xí)模型能分析和理解多種語言。通過學(xué)習(xí)跨語言的共享資料展現(xiàn)（data representation），這個模型可以從有很豐富訓(xùn)練資料的主流語言學(xué)習(xí)到的知識，轉(zhuǎn)移到資料很稀少的語言上。

為推動MMNLU模型創(chuàng)建，Amazon宣布發(fā)布MASSIVE資料集。MASSIVE資料集包含跨51種語言加注過的100萬項(xiàng)話語或單詞（utterance）及開源程序代碼。資料集包括訓(xùn)練、驗(yàn)證和測試資料，后者則提供MMNLU模型的執(zhí)行范例，協(xié)助AI項(xiàng)目人員創(chuàng)建意圖分類（intent classification）或詞槽填充（Slot Filling）的結(jié)果基準(zhǔn)線（baseline）。

MASSIVE為平行資料集，意味每個單詞都有51種語言版本，這可讓模型學(xué)習(xí)到同一意圖的共享表達(dá)方式，可加速自然語言理解（NLP）任務(wù)的跨語言訓(xùn)練，也能用于其他NLP任務(wù)，如機(jī)器翻譯、多語復(fù)述（multilingual paraphrasing）等等。MASSIVE通過CC BY 4.0授權(quán)開源，以鼓勵學(xué)界及業(yè)界使用。

Amazon同時還宣布MMNLU-22競賽（Massively Multilingual NLU 2022），鼓勵開發(fā)人員利用MASSIVE資料集創(chuàng)建模型。

關(guān)鍵詞： AWS開源支持51種語言的數(shù)字助理AI訓(xùn)練資料集程序代碼

推薦閱讀