快別「一句wòcào行天下」,清華搞了個(gè)神器專治詞窮

發(fā)布時(shí)間:2022-05-17 09:06:55  |  來(lái)源:騰訊網(wǎng)  

魚(yú)羊 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

奈何本人沒(méi)文化,一句(嗶——)行天下。

這位胖友,不知你行走江湖,是否也有過(guò)這樣的煩惱?

那么這里有個(gè)神器,可就值得好好說(shuō)道說(shuō)道了。

“聽(tīng)我說(shuō)謝謝你,因?yàn)橛心?,溫暖了四季”用成語(yǔ)應(yīng)該怎么說(shuō)?

在搜索框內(nèi)輸入你想表達(dá)的意思,再在詞性一欄里選擇成語(yǔ),AI立馬就能給你拋出幾十上百個(gè)選項(xiàng)。

背景顏色越深,代表系統(tǒng)推薦程度越高。

要是碰上啥看不懂的,鼠標(biāo)一點(diǎn),就能查看具體釋義。

還不只是中文,比如當(dāng)你想脫口而出一句“鵝妹子嚶”,但又想知道有沒(méi)有更華麗的中文表達(dá),同樣是一鍵即可得。

怎么樣,夠方便不?

是不是有點(diǎn)“媽媽再也不用擔(dān)心我詞窮”內(nèi)味兒了(手動(dòng)狗頭)。

來(lái)自清華的“反向詞典”

這個(gè)神器名叫WantWords,反向詞典

背后的AI,來(lái)頭不小:誕生自清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室,項(xiàng)目指導(dǎo)教師為孫茂松教授和劉知遠(yuǎn)副教授。

所謂“反向”,就是和常規(guī)詞典不同,不是按詞尋義,而是反過(guò)來(lái)給詞典一段描述,讓它來(lái)幫你找詞。

作者在GitHub中介紹,他們希望反向詞典起到三種作用:

解決話到嘴邊,卻忽然想不起來(lái)怎么說(shuō)的“舌尖現(xiàn)象”

幫助新語(yǔ)言學(xué)習(xí)者

幫助無(wú)法選擇單詞的失讀癥患者

這個(gè)反向詞典背后的核心AI,名為多通道逆向詞典模型,相關(guān)論文還中選過(guò)AAAI 2020。

具體而言,多通道逆向詞典模型采用了雙向LSTM(BiLSTM)和注意力作為基本框架,并在其中加入了4個(gè)特定特征預(yù)測(cè)器。

采用多個(gè)預(yù)測(cè)器來(lái)識(shí)別輸入查詢中目標(biāo)詞的不同特征,一方面,能使嵌入質(zhì)量較差的目標(biāo)詞通過(guò)特征被挑選出來(lái)。

另一方面,也可以過(guò)濾掉與正確目標(biāo)詞有接近嵌入、但存在矛盾特征的詞。

也就是說(shuō),AI選詞能更精準(zhǔn)。

而為了讓AI更容易找到真正“正確”的詞,除了詞性、詞素這兩個(gè)詞語(yǔ)的“內(nèi)部特征”外,作者還考慮了層次體系義原這兩個(gè)“外部特征”。

所謂層次體系,是用來(lái)區(qū)分一個(gè)詞是實(shí)體還是概念,實(shí)體下面又會(huì)分出各種各樣的實(shí)體。

義原在語(yǔ)言學(xué)中則是指最小的不可再分的語(yǔ)義單位。語(yǔ)言學(xué)家認(rèn)為義原體系在任何語(yǔ)言中都適用,不與特定語(yǔ)言相關(guān)。

舉個(gè)例子,“男孩”這個(gè)詞可以由“人類”、“男性”、“兒童”這個(gè)三個(gè)義原表示,“女孩”則可以由“人類”、“女性”、“兒童”的組合來(lái)表達(dá)。

△圖源:HowNet

新算法已測(cè)試,相關(guān)新系統(tǒng)開(kāi)發(fā)中

前文提到,WantWords反向詞典最早誕生于清華NLP實(shí)驗(yàn)室,主要由豈凡超和張磊在2019年合作完成。

在與果殼交流時(shí)豈凡超談到,剛開(kāi)始,他們并沒(méi)有對(duì)這個(gè)項(xiàng)目進(jìn)行推廣,只是身邊的同學(xué)使用后反饋還不錯(cuò)。

直到去年11月,這個(gè)項(xiàng)目突然火爆,一時(shí)之間訪問(wèn)量暴增,把服務(wù)器都給擠垮了。

自此之后,WantWords開(kāi)始受到更多關(guān)注,也收獲了不少建議和來(lái)自志愿者的技術(shù)支持。

不僅有了網(wǎng)頁(yè)版,微信小程序也已正式上線,還有APP版正在開(kāi)發(fā)中。

△微信小程序“WantWords”

根據(jù)研發(fā)團(tuán)隊(duì)的最新公告,今年除夕之前,反向查詞還測(cè)試完成了新算法,其性能相較于原有算法有顯著提高。

而在反向詞典之外,研究團(tuán)隊(duì)還開(kāi)發(fā)“名言名句語(yǔ)義檢索及推薦系統(tǒng)”,以及“漢語(yǔ)詞語(yǔ)搭配查詢系統(tǒng)”。

目前這兩個(gè)系統(tǒng)尚未對(duì)外開(kāi)放,感興趣的小伙伴可以邊讀論文(文末奉上),邊蹲一波。

對(duì)了,研發(fā)團(tuán)隊(duì)還表示,WantWords作為一個(gè)開(kāi)源項(xiàng)目,隨時(shí)歡迎大家加入,參與設(shè)計(jì)&開(kāi)發(fā)、提出需求、反饋問(wèn)題。感興趣的話就去官網(wǎng)戳戳公告吧~

相關(guān)論文:

https://arxiv.org/abs/1912.08441

https://arxiv.org/abs/2202.13145

參考鏈接:

[1]官網(wǎng):https://wantwords.net/

[2]果殼文章:https://mp.weixin.qq.com/s/er-JwST7dUQjMh6VzBE1bA

[3]https://deeplang.feishu.cn/docs/doccnoH9ncCZspo2Ubx79bpZ0Lh#ijyigh

關(guān)鍵詞: 快別一句wòcào行天下 清華搞了個(gè)神器專治詞窮

 

網(wǎng)站介紹  |  版權(quán)說(shuō)明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com