近日,清華大學(xué)人工智能研究院常務(wù)副院長孫茂松教授親手執(zhí)筆,對自然語言處理的貢獻(xiàn)、當(dāng)前境界與未來挑戰(zhàn)進(jìn)行了深入的探討。AI科技評論編輯組深有同感,認(rèn)為此文十分值得一讀,故分享之。
作者 | 孫茂松
來源 | 中國人工智能學(xué)會(huì)
人類語言(即自然語言)的重要性無論怎么講都不為過。社會(huì)生物學(xué)之父愛德華·威爾遜曾說過:“語言是繼真核細(xì)胞之后最偉大的進(jìn)化成就?!笨破諘充N書《信息簡史》的作者詹姆斯·格雷克也深刻地指出:“語言本身就是人類有史以來最大的技術(shù)發(fā)明?!边@些斷言帶有科學(xué)哲學(xué)的意味,反映了現(xiàn)代人類對語言本質(zhì)理解的不斷深化。
眾所周知,語言是人類所獨(dú)有的,是思維的載體,是人類交流思想、表達(dá)情感最自然、最深刻、最方便的工具。其中這幾個(gè)“最”字非同小可。語言之于人類就如同空氣之于生物,它時(shí)時(shí)刻刻、無聲無息地融通于我們生活的世界中;它是如此的自然以至于我們常常意識(shí)不到它的存在,但一旦沒有了它,人類將舉步維艱。很不幸,人類語言能力正是現(xiàn)代計(jì)算機(jī)系統(tǒng)所不具備的,呈現(xiàn)出整體性缺失。一個(gè)顯而易見的邏輯是,沒有語言能力的機(jī)器,不可能有真正的智能。
自然語言具有無窮語義組合性、高度歧義性和持續(xù)進(jìn)化性等,機(jī)器要實(shí)現(xiàn)完全意義上的自然語言理解,“難于上青天”。自然語言理解(一個(gè)退而求其次的提法——自然語言處理),因其兼具無與倫比的科學(xué)意義與學(xué)術(shù)挑戰(zhàn)度,吸引了一代代學(xué)者殫思竭慮、前赴后繼。
1
NLP對世界人工智能發(fā)展的三個(gè)里程碑式貢獻(xiàn)
“卻顧所來徑、蒼蒼橫翠微?!惫P者認(rèn)為,自然語言處理研究(包括文本處理和語音處理兩個(gè)相輔相成的方面)在世界人工智能發(fā)展史上有三個(gè)里程碑式的“開風(fēng)氣之先”貢獻(xiàn)。不揣孤陋寡聞,一孔之見,不一定對,拋磚引玉而已。
第一個(gè)里程碑式貢獻(xiàn)
現(xiàn)代意義的人工智能技術(shù)研究發(fā)端于自然語言處理。對機(jī)器智能的癡迷與摸索由來已久,1946年第一臺(tái)通用計(jì)算機(jī)ENIAC面世,無疑是一個(gè)歷史分水嶺。早在1947年,時(shí)任美國洛克菲勒基金會(huì)自然科學(xué)部主任的 Warren Weaver,在寫給控制論之父維納的一封信中就討論了利用數(shù)字計(jì)算機(jī)翻譯人類語言的可能性,1949年他發(fā)布了著名的《翻譯》備忘錄,正式提出機(jī)器翻譯任務(wù)并設(shè)計(jì)了科學(xué)合理的發(fā)展路徑(其內(nèi)容實(shí)際上涵蓋了理性主義和經(jīng)驗(yàn)主義兩大研究范式)。1951 年以色列哲學(xué)家、語言學(xué)家及數(shù)學(xué)家Yehoshua Bar-Hillel在麻省理工學(xué)院便開始了機(jī)器翻譯研究。1954年Georgetown大學(xué)與IBM合作的機(jī)器翻譯實(shí)驗(yàn)系統(tǒng)進(jìn)行了公開演示。機(jī)器翻譯是典型的認(rèn)知任務(wù),顯然屬于人工智能領(lǐng)域。
第二個(gè)里程碑式貢獻(xiàn)
自然語言處理在人工智能領(lǐng)域乃至整個(gè)計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域較早提出并系統(tǒng)性踐行了非結(jié)構(gòu)化“大數(shù)據(jù)”理念,整體上實(shí)現(xiàn)了理性主義研究范式向經(jīng)驗(yàn)主義研究范式的嬗變。下面舉兩個(gè)典型工作。
一是連續(xù)語音識(shí)別。自上個(gè)世紀(jì)70年代中期開始,著名學(xué)者Frederick Jelinek領(lǐng)導(dǎo)的IBM研發(fā)小組即提出了基于語料庫n-gram語言模型(實(shí)際上就是n階馬爾科夫模型)的大詞表連續(xù)語音識(shí)別方法,使語音識(shí)別的性能上了一個(gè)大臺(tái)階。這個(gè)思路對語音識(shí)別領(lǐng)域產(chǎn)生了20年左右的深遠(yuǎn)影響,甚至包括90年代推出的開創(chuàng)了機(jī)器翻譯新格局的IBM統(tǒng)計(jì)機(jī)器翻譯模型(該模型使機(jī)器翻譯研究回歸到1949年Warren Weaver建議的經(jīng)驗(yàn)主義研究范式下,充分展示了他的先見之明)。
二是詞性自動(dòng)標(biāo)注。1971年曾有學(xué)者精心設(shè)計(jì)過一個(gè)TAGGIT英語詞性標(biāo)注系統(tǒng),使用了3300條人工編制的上下文敏感規(guī)則,在100萬詞次的布朗語料庫上獲得了77%的標(biāo)注正確率。1983-1987年間,英國蘭開斯特大學(xué)的一個(gè)研究小組另辟蹊徑,提出了不需要人工規(guī)則的數(shù)據(jù)驅(qū)動(dòng)新方法,利用已帶有詞性標(biāo)記的布朗語料庫,構(gòu)造了基于隱馬爾科夫模型的CLAWS英語詞性標(biāo)注系統(tǒng),并對100萬詞次的LOB語料庫進(jìn)行詞性自動(dòng)標(biāo)注,正確率一舉躍升到96%。
第三個(gè)里程碑式貢獻(xiàn)
當(dāng)前這一波席卷全球的人工智能高潮肇始于自然語言處理。2009-2010年間著名學(xué)者Geoffrey Hinton與微軟鄧力博士合作,率先提出了基于深層神經(jīng)網(wǎng)絡(luò)的語音識(shí)別方法,使得語音識(shí)別的性能突破了近10年的瓶頸制約,更上一層樓,令學(xué)界初步體會(huì)到了深度學(xué)習(xí)的威力,信心頓增,一掃對深度學(xué)習(xí)框架半信半疑之狀態(tài),其后各研究領(lǐng)域遂從者如云,爭先恐后如過江之鯽。2016年谷歌推出了深層神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)GNMT,徹底終結(jié)了IBM統(tǒng)計(jì)機(jī)器翻譯模型,翻開了新篇章。
2
基于深度學(xué)習(xí)的NLP:目前形成的基本態(tài)勢
自2010年以來,深度學(xué)習(xí)異軍突起,日新月異,強(qiáng)力推動(dòng)了人工智能的全面發(fā)展。10年發(fā)展的結(jié)果是:一方面,深度學(xué)習(xí)使人工智能技術(shù)從幾乎完全“不可用”走向了“可用”,取得了歷史性的非凡進(jìn)步;另一方面,雖然它使得人工智能系統(tǒng)在幾乎所有經(jīng)典任務(wù)上的性能表現(xiàn)均得以明顯提升,但受囿于深度學(xué)習(xí)方法所存在的深刻短板,在很多應(yīng)用場景尚達(dá)不到“能用、管用、好用”。自然語言處理領(lǐng)域基本上也是這樣,本文不贅述。
宏觀上看,人工智能領(lǐng)域的發(fā)展無例外地得益于兩大類型的方法利器:針對圖像的卷積神經(jīng)網(wǎng)絡(luò)(CNN),以及針對自然語言文本的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。最初兩三年前者風(fēng)頭尤勁,近些年后者貢獻(xiàn)更為卓著。若干影響深度學(xué)習(xí)全局的主要思想,如注意力機(jī)制、自注意力機(jī)制、Transformer架構(gòu),均出自后者。
基于深度學(xué)習(xí)的自然語言處理,在短短10年中即完成了模型框架上的三次華麗迭代,“從山陰道上行,山川自相映發(fā),使人應(yīng)接不暇”,先后達(dá)至三重境界(實(shí)際上這也是深度學(xué)習(xí)的三重境界)。
第一重境界
針對每個(gè)不同的自然語言處理任務(wù),獨(dú)立準(zhǔn)備一套人工標(biāo)注數(shù)據(jù)集,各自幾乎從零開始(常輔以word2vec 詞向量),訓(xùn)練一個(gè)該任務(wù)專屬的神經(jīng)網(wǎng)絡(luò)模型。其特點(diǎn)我稱之為“白手起家 + 各家自掃門前雪”。
第二重境界
首先基于大規(guī)模生語料庫,自學(xué)習(xí)、無監(jiān)督地訓(xùn)練一個(gè)大規(guī)模預(yù)訓(xùn)練語言模型(PLM),然后針對每個(gè)不同的自然語言處理任務(wù)(此時(shí)也稱作下游任務(wù)),獨(dú)立準(zhǔn)備一套人工標(biāo)注數(shù)據(jù)集,以PLM為共同支撐,訓(xùn)練一個(gè)該下游任務(wù)專屬的輕量級(jí)全連接前饋神經(jīng)網(wǎng)絡(luò)。在這個(gè)過程中,PLM的參數(shù)會(huì)做適應(yīng)性調(diào)整。其特點(diǎn)我稱之為“預(yù)訓(xùn)練大模型+大小聯(lián)調(diào)”。
第三重境界
首先基于極大規(guī)模生語料庫,自學(xué)習(xí)、無監(jiān)督地訓(xùn)練一個(gè)極大規(guī)模的PLM;然后針對每個(gè)不同的自然語言處理下游任務(wù),以PLM為共同支撐,通過少次學(xué)習(xí)(few-shot learning)或提示學(xué)習(xí)(prompt learning)等手段來完成該任務(wù)。在這個(gè)過程中,PLM的參數(shù)不做調(diào)整(實(shí)際上由于模型規(guī)模太過龐大,下游任務(wù)也無力調(diào)整)。其特點(diǎn)我稱之為“預(yù)訓(xùn)練巨模型 + 一巨托眾小”。
這三重境界, 一重比一重來得深刻;一重比一重有更多的“ 形而上” 感 覺。在GLUE和SuperGLUE公開評測集上的性能表現(xiàn),也是一重比一重要好(目前正處于第三重)。
近年來,在世界范圍內(nèi)人工智能界各路英豪圍繞預(yù)訓(xùn)練語言模型展開了巔峰對決,模型規(guī)模急劇膨脹(如 2020年6月OpenAI推出的GPT-3模型參數(shù)規(guī)模達(dá)1750億個(gè),2021年10月微軟和英偉達(dá)聯(lián)合推出的MT-NLG 模型飆升到了5300億個(gè)參數(shù)),你爭我奪,你爭我趕,好不熱鬧。2021年8月,斯坦福大學(xué)專門舉辦了兩天的學(xué)術(shù)研討會(huì),將第三重境界中的“預(yù)訓(xùn)練巨模型”命名為“基礎(chǔ)模型”(foundation model),并隨即發(fā)表了一篇數(shù)百頁的長文,全面闡述其觀點(diǎn)。文中繪制了一張示意圖(見圖1),揭示了“基礎(chǔ)模型”在智能信息處理的中樞作用(其作用疆域已擴(kuò)展至全數(shù)據(jù)類型和多模態(tài))。
圖 1 “基礎(chǔ)模型”在智能信息處理的中樞作用
對“基礎(chǔ)模型”也有很多質(zhì)疑的聲音,如圖靈獎(jiǎng)得主Judea Pearl就在推特上發(fā)問:“‘基礎(chǔ)模型’使得我們可以繞開以數(shù)據(jù)為中心的方法的理論局限性的科學(xué)原理是什么呢?”(What is the scientific principle by which‘Foundation models’can circumvent the theoretical limitations of data-centric methods as we know them…?)
但無論如何,“基礎(chǔ)模型”作為智能信息處理公共基礎(chǔ)“軟”設(shè)施的重要地位似已可以基本成立。第一重境界好比各家在海拔幾乎為零的沙灘上蓋房子,只能自家打好自家的地基,一磚一瓦自己蓋起來,很是辛苦,效率也就比較低;第二重境界則是搭建了一個(gè)海拔二三十米的共同臺(tái)面,各家都在這個(gè)臺(tái)面上蓋房子,自己打地基的工作大體可以省掉,效率大為提升,但由于臺(tái)面還不夠高,基礎(chǔ)不一定處處可靠,所以各家蓋房子時(shí)還要照顧到臺(tái)面情況,適當(dāng)夯實(shí)、調(diào)整一下臺(tái)面;第三重境界把公共平臺(tái)建到了二三百米,地基很牢固,臺(tái)面高了,即使簡單搭個(gè)小涼亭,登高望遠(yuǎn)風(fēng)景也會(huì)不錯(cuò),各家蓋房子需要操心的因素自然就更少了許多,效率得以進(jìn)一步提升。這是我對“基礎(chǔ)模型”定位的一種形象解釋。
我們不妨以參數(shù)規(guī)模達(dá)千億個(gè)的百度文心NLP大模型(https://wenxin.baidu.com/wenxin/ernie) 為例,初步體驗(yàn)一下大模型。首先簡單考察其“自由創(chuàng)作”功能。隨意輸入如下一段話,讓機(jī)器續(xù)寫:
沿著曲徑一路走去,未見
機(jī)器續(xù)寫的句子相當(dāng)精彩:
到一個(gè)人,只有幾株高大的銀杏樹和一些不知名的花朵在陽光下燦爛地開放,偶爾還能夠見到兩只小鳥。
還是那句輸入,讓機(jī)器再續(xù)寫一段:
任何人煙,卻有一個(gè)小山村靜謐地佇立在那里。這就是位于大興區(qū)榆垡鎮(zhèn)的后石塢鄉(xiāng)前石塢村,全村共300戶左右、800多口人。如今,農(nóng)村已經(jīng)成為許多家庭主要的生活來源之一了?,F(xiàn)在我們不僅吃穿住都好,還能看到很多漂亮精彩的節(jié)目!
這段話雖然通順,但文字發(fā)展脈絡(luò)已經(jīng)有些奇了。
再考察其“自由問答”功能。提問:
山東哪一座山最高?
機(jī)器回答:
泰山。
換個(gè)問法兒再問機(jī)器:
山東最高的山是哪座?
機(jī)器回答:
泰山!
考慮到這是生成式回答,機(jī)器能做到這一點(diǎn)相當(dāng)不錯(cuò)。但同樣的問題多問機(jī)器幾次,機(jī)器就“蒙圈”了,胡亂回答:
青島的嶗山。這個(gè)不用想
五蓮山,海拔1095米
濟(jì)南
可見大模型有比較廣博的知識(shí)能力,但博而不精,嚴(yán)重缺乏自知之明。所以很容易在語義邏輯上被“攻擊”或者“為難”。掉過頭來再考察一下其“自由創(chuàng)作”功能。輸入:
沿著人來人往的曲徑一路走去,未見
機(jī)器續(xù)寫:
一個(gè)行人,只有幾盞燈籠照著地上的影子。
輸入:
沿著人滿為患的曲徑一路走去,未見
機(jī)器續(xù)寫:
任何一個(gè)人,這里是否有著另外的生命存在?沿途所見皆為枯死之樹和倒伏的草木。而他們卻不曾注意到身后那片綠意盎然的山谷!“好美啊 ~”她輕盈跳躍在空中,看向下方正在忙碌的眾人道了聲贊嘆。聽聞此言時(shí)莫云殤也停止了手上的活計(jì)轉(zhuǎn)頭望去,只見遠(yuǎn)處的林間開滿了
由上述幾個(gè)例子可以看出,大模型有明顯的長處,但也存在明顯的短處。它就是一個(gè)有一定海拔高度的臺(tái)面,在上面可以比較便利地蓋房子,但它并不意味著房子已經(jīng)蓋好。其實(shí)要在其上蓋起一座真正“能用、管用、好用”的房子,還是需要下大氣力的。
3
第三重境界帶來的困惑與思考:NLP今后若干年的主要挑戰(zhàn)
我認(rèn)為 , 自然語言處理在今后若干年主要面臨兩大挑戰(zhàn)。
第一個(gè)挑戰(zhàn):力大者為王?
這是順著目前形成的基本態(tài)勢,也就是“基礎(chǔ)模型”自然向前延伸的。雖然這一路依然在高歌猛進(jìn),但“基礎(chǔ)模型”本身顯然不能解決深層次語義問題;換言之,它注定不能直接導(dǎo)致通用人工智能(雖然它肯定會(huì)是設(shè)想中的通用人工智能的一個(gè)基礎(chǔ)部件)。那么,一個(gè)自然而然的問題就產(chǎn)生了:這種追求規(guī)模(數(shù)據(jù)、模型、算力)極致化的策略還能走多遠(yuǎn)?連帶的另一個(gè)問題是,我們應(yīng)該做些什么?
我想可以從“基礎(chǔ)模型”的開發(fā)性(exploitation)和探索性(exploration)兩個(gè)角度予以回答。
開發(fā)性(exploitation)更多注重“基礎(chǔ)模型”的工程性,有如下幾點(diǎn)應(yīng)予注意。
目前構(gòu)造及使用“基礎(chǔ)模型”的算法本身還是偏粗放型的。前文給出的百度文心 NLP 大模型表現(xiàn)的一些“毛病”,可望通過積極改進(jìn)算法部分地予以解決。
對少次學(xué)習(xí)、提示學(xué)習(xí)、基于適配器的學(xué)習(xí)(adapter-based learning)等與“基礎(chǔ)模型”配套的新手段的研發(fā)工作應(yīng)予加強(qiáng)。
訓(xùn)練數(shù)據(jù)包羅萬象一定就好嗎?是否應(yīng)對大數(shù)據(jù)中明顯存在著的大量噪聲進(jìn)行篩選?
排行榜對模型研發(fā)無疑非常重要。但排行榜不是唯一的金標(biāo)準(zhǔn),應(yīng)用才是最終的金標(biāo)準(zhǔn)。
研發(fā)“基礎(chǔ)模型”的企業(yè)不能“王婆賣瓜,自賣自夸”,要開放給學(xué)術(shù)界測試。不開放給學(xué)術(shù)界測試的“基礎(chǔ)模型”,其性能是存疑的。學(xué)術(shù)界不宜盲信盲從。
“基礎(chǔ)模型”亟需找到殺手級(jí)應(yīng)用,才能令人信服地證明自己的能力。
探索性(exploration)則更多注重“基礎(chǔ)模型”的科學(xué)性。鑒于“基礎(chǔ)模型”確實(shí)呈現(xiàn)出了一些令人驚奇(或者“奇怪”)的現(xiàn)象,目前尚未給出科學(xué)的解釋。典型如:
為什么大規(guī)模預(yù)訓(xùn)練語言模型會(huì)出現(xiàn)deep double descent現(xiàn)象 ( 這一點(diǎn)似乎超越了機(jī)器學(xué)習(xí)中“數(shù)據(jù)復(fù)雜度與模型復(fù)雜度應(yīng)基本匹配”的金科玉律 ) ?
為什么“基礎(chǔ)模型”具有少次學(xué)習(xí)甚至零次學(xué)習(xí)的能力?這些能力是怎么獲得的?其中是否出現(xiàn)了復(fù)雜巨系統(tǒng)的涌現(xiàn)現(xiàn)象?
為什么提示學(xué)習(xí)能奏效?這是否暗示“基礎(chǔ)模型”內(nèi)部可能自發(fā)地產(chǎn)生了若干功能分區(qū),而一個(gè)個(gè)提示學(xué)習(xí)恰好提供了啟用一個(gè)個(gè)功能分區(qū)的鑰匙?
如果是這樣,功能分區(qū)的分布可能是怎樣的?由于“基礎(chǔ)模型”的核心訓(xùn)練算法極其簡單(語言模型或完形填空模型),這又隱含著什么深意?
我個(gè)人認(rèn)為,對“基礎(chǔ)模型”科學(xué)意義的探索也許大于其工程意義。如果其中確乎蘊(yùn)涵著上述一二玄機(jī),那么這將對人工智能模型的全新發(fā)展具有深刻的啟迪性,“基礎(chǔ)模型”也會(huì)出現(xiàn)“山重水復(fù)疑無路、柳暗花明又一村”的全新氣象。此外對腦科學(xué)、認(rèn)知神經(jīng)科學(xué)研究也可能富有啟發(fā)性。
第二個(gè)挑戰(zhàn):智深者為上?
這是人工智能的“初心”和永恒夢想,與第一個(gè)挑戰(zhàn)的思路相去甚遠(yuǎn),但其必要性毋庸置疑。這里舉例說明。
前文提及的機(jī)器翻譯先行者Yehoshua Bar-Hillel,1960年發(fā)表了一篇長文《語言自動(dòng)翻譯的現(xiàn)狀》,對機(jī)器翻譯的前景進(jìn)行了展望。文中他舉了一個(gè)對人來說易如反掌,但對機(jī)器翻譯來說異常棘手的一個(gè)句子(注意其中的 The box was in the pen):
Little John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.
其中pen有兩個(gè)意思:“鋼筆”和“圍欄”。要正確地翻譯成“圍欄”, 機(jī)器需要明白介詞in的意思,同時(shí)具備相關(guān)的世界知識(shí)。我們把這個(gè)簡單的英文句子,送給用深層神經(jīng)網(wǎng)絡(luò)和大數(shù)據(jù)武裝到牙齒的機(jī)器翻譯系統(tǒng)。
谷歌翻譯結(jié)果:盒子在筆里。
百度翻譯結(jié)果:盒子在鋼筆里。
60多年過去了,還是沒搞定。
可喜的是,在“力大者為王”波瀾壯闊、摧枯拉朽的大勢下,一批學(xué)者仍在堅(jiān)持并積極倡導(dǎo)小數(shù)據(jù)、富知識(shí)、因果推理等“智深者為上”的下一代人工智能發(fā)展理念。不過目前研究進(jìn)展不大。這條道路上有兩個(gè)難以逾越的“攔路虎”。
一是形式化常識(shí)庫和世界知識(shí)庫依然嚴(yán)重缺乏。Wikidata之類的知識(shí)圖譜貌似規(guī)模龐大,但如果稍微審視一下就會(huì)發(fā)現(xiàn),它所覆蓋的知識(shí)范圍仍然十分有限。事實(shí)上,Wikidata存在明顯的構(gòu)成性缺失,多是關(guān)于實(shí)體的靜態(tài)屬性知識(shí),關(guān)于動(dòng)作、行為、狀態(tài),以及事件邏輯關(guān)系的形式化描寫則幾乎沒有。這就使得它的作用域嚴(yán)重受限,實(shí)際效能大打折扣。
二是系統(tǒng)性獲取“動(dòng)作、行為、狀態(tài),以及事件邏輯關(guān)系”之類形式化知識(shí)的能力依然嚴(yán)重缺失。對開放式文本(如 Wikipedia 文本)進(jìn)行大規(guī)模句法語義分析是必由之路。但很可惜,目前這個(gè)句法語義能力還不太具備(雖然近年來借助深度學(xué)習(xí)方法,已經(jīng)有了長足進(jìn)步)。
這兩個(gè)“攔路虎”必須想辦法解決。否則,巧婦難為無米之炊,這條路不易走通。
上述兩大挑戰(zhàn),其實(shí)也是整個(gè)人工智能領(lǐng)域所必須面對的。
4
結(jié)束語
自然語言處理一路走來至今日,形成了“力大者為王”和“智深者為上”兩條道路。前者道路寬廣,順風(fēng)而下,但貌似快走到盡頭;后者道路狹窄,逆風(fēng)而上,但應(yīng)該會(huì)悠長雋永。前看兩者可以并行不悖,互相借鑒,互為支持,如“基礎(chǔ)模型”可望有效提升大規(guī)模句法語義自動(dòng)分析的能力,從而為大規(guī)模知識(shí)自動(dòng)獲取提供前提條件?!盎A(chǔ)模型”可能包藏了某些深邃的計(jì)算機(jī)理或奧秘,或?qū)е麓蟮摹胺寤芈忿D(zhuǎn)”,值得密切關(guān)注。未來 10 年,自然語言處理在研究和應(yīng)用上整體上創(chuàng)造一個(gè)恢弘格局,并對人工智能領(lǐng)域的發(fā)展做出關(guān)鍵性貢獻(xiàn),是可以期待的。
關(guān)鍵詞: 清華大學(xué)孫茂松自然語言處理一瞥 知往鑒今瞻未來