冷眼觀
“今年美國國家科技理事會發(fā)布的國家人工智能八大戰(zhàn)略中,有三項與自然語言處理有關(guān)。”近日,北京智源人工智能研究院首席科學(xué)家孫茂松表示,“自然語言處理是全球人工智能戰(zhàn)略之關(guān)鍵。”然而,當(dāng)前與自然語言處理的相關(guān)技術(shù)遠(yuǎn)未成熟,許多問題亟待突破。那么,目前有哪些解決途徑?
“學(xué)術(shù)領(lǐng)域叫自然語言,其實指的就是人類語言。自然語言處理可以說是從人工智能這個詞尚未出現(xiàn)前,就是一個重要研究對象。”孫茂松表示。
“語言,是人獨立于動物的重要特征之一。但是大家不要把自己看得太高明,更不要認(rèn)為人的語言就是模板,動物的語言也很強大,其中不乏超過我們的。”孫茂松指出,比如鯨魚的神經(jīng)細(xì)胞有370億個,人有200多億,本身它的神經(jīng)系統(tǒng)就比我們發(fā)達(dá),語言也極其豐富。而魚在海洋光線不好的情況下,能夠做很強的交流,到現(xiàn)在人類也對其語言的理解十分有限。盡管動物的語言和人的語言有很大不同,但共性即是語言是兩個個體之間交流的橋梁,橋梁作用就是研究的關(guān)鍵。
上世紀(jì)60年代,機器翻譯系統(tǒng)已經(jīng)出現(xiàn)。相關(guān)部門用《圣經(jīng)》中的句子進(jìn)行了測試,句子直譯的意思是“精神是愿意的,但是肉體是虛弱的”,但用當(dāng)時的機器翻譯成俄文,再用俄文系統(tǒng)翻譯成英文時,就變成“伏特加是好的,但肉卻腐爛,酒喝不成了”。如今把這個英語句子用谷歌翻譯系統(tǒng)翻譯成中文,基本上可以保持語義保持完好,這就是顯著的進(jìn)步。
但現(xiàn)在大數(shù)據(jù)驅(qū)動下的自然語言處理遇到的瓶頸,是一位著名機器翻譯專家提出機器翻譯中“pen”的問題。即“pen”有兩個意思:鋼筆和圍欄,而無論是谷歌還是微軟的機器翻譯,都還不能很好地根據(jù)不同語境將其譯成合適的意思。“如果見過這句話的情況機器可能會翻譯準(zhǔn)確,而沒見過就需要知識的積累。大數(shù)據(jù)驅(qū)動下的自然語言處理有很大局限性,即運用知識處理問題的能力幾乎沒有。”孫茂松指出。
近些年,自然語言處理在全球范圍受到學(xué)術(shù)界的高度重視,美國國防高級研究計劃局(DARPA)對基于知識的語言智能投入相當(dāng)大,涉及到數(shù)據(jù)知識與行為、低資源語言處理、知識指導(dǎo)模式推理、自動知識獲取等。
據(jù)介紹,目前我國基于大數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)已經(jīng)取得顯著進(jìn)步,這些年來很多重要進(jìn)展都是基于這個層面。有專家指出,今后自然語言處理需要通過知識驅(qū)動實現(xiàn)突破。孫茂松認(rèn)為,“大數(shù)據(jù)與富知識雙輪驅(qū)動”或成為解決問題的關(guān)鍵,即在大數(shù)據(jù)驅(qū)動的基礎(chǔ)上加入富知識驅(qū)動,兩者結(jié)合,缺一不可。他強調(diào),這個知識是系統(tǒng)性的,而不是用破碎的知識。
為此,北京智源人工智能研究院“自然語言處理”課題團(tuán)隊,將致力于解決多類型知識資源構(gòu)建、自然語言深度理解、可控自然語言生成、融合知識的機器翻譯、智能語言學(xué)習(xí)、對話系統(tǒng)等問題。(記者 華 凌)
關(guān)鍵詞: