看見她丨再造巴別塔

發(fā)布時間:2022-04-08 14:43:23  |  來源:騰訊網(wǎng)  

學術(shù)界的性別偏見和性別不平等現(xiàn)象由來已久。作為人類最前沿思想、科技的聚集地,學界中的女性卻時常面臨種種不必要的困境。為此,學界近年來積極推行平權(quán),力圖消除各種負面的影響,但性別平等之路仍然是任重而道遠。

然而我們看到,即便在重重阻礙下,仍有許多杰出的女性科學家被看見,為推動人類科技的進步做出了不可磨滅的貢獻,也成為了一股必須被正視的“她”力量。為此,我們特意推出“看見她”系列,講述她們的故事。

曾幾何時,生活在大地上的人們都使用著同一種語言,帶著同樣的口音。有一天,他們決定聯(lián)合起來,建一座通天的高塔直達天堂。不料,此舉卻驚動了上帝,于是上帝使人類說不同的語言,讓他們無法相互溝通。計劃因此失敗,人類也自此各散西東。

The Tower of Babel

Museum Boijmans Van Beuningen

這是《圣經(jīng)·舊約》中巴別塔的故事,也是《圣經(jīng)》對我們這個世界出現(xiàn)了如此多不同語言和種族的解釋。然而,從鉆木取火到文字的發(fā)明,從印刷術(shù)的出現(xiàn)到蒸汽機的革命,從世界上的第一通電話到如今的萬物互聯(lián),人類的發(fā)展史不亞于一部“逆天而行“的史詩,其中科技和創(chuàng)新的推動力量毋庸置疑。時至今日,人類已經(jīng)走過了很長的一段路,如果今天要再建塔,那我們一定不會再去徒手壘磚,甚至也不會滿足于使用一些簡單的機械。這個時代的再造巴別塔,可能是一幅人們與一群人工智能機器人合作搭建的圖景

God & iPad La Biennale di Venezia

如果說上面的故事告訴了我們什么,那就是溝通、理解、協(xié)作的重要性不言而喻,而作為人類最高級的功能之一,共情則更是建立在它們之上、真正讓我們自發(fā)團結(jié)起來為一個共同目標而奮斗的東西。大量的研究表明,女性在共情方面天然比男性更具優(yōu)勢,而一些杰出的女性科學家們更將這一優(yōu)勢與科學的嚴謹邏輯和想象力結(jié)合起來,成為我們“建塔”中最重要的一股力量。

機器懂我們在說什么嗎?

要讓機器人幫助我們建塔,首先要讓它們理解我們的意思。習慣了簡單的一句“嘿!Siri”的我們,可能并沒有意識到其背后人工智能及核心的自然語言處理(NLP)的復雜程度,而僅僅是這樣還遠遠達不到要求。事實上,早在2001 年的《麻省理工科技評論》“全球十大突破性技術(shù)”中,自然語言處理就已經(jīng)赫然在列了。但其真正發(fā)生質(zhì)的飛躍,則是在 2013~2014 年深度學習(入選 2013 年“全球十大突破性技術(shù)”)崛起并應用于 NLP 之后的事情了,從現(xiàn)在的角度來看,這是一個極其有眼光、有遠見的選擇。

《麻省理工科技評論》2001年一月刊

MIT Technology Review

回到現(xiàn)在,俗話說,人類的悲歡并不相通,而佐治亞理工學院計算機學院助理教授楊笛一則希望通過開發(fā)更先進的 NLP 技術(shù)以促進人與機器、人與人之間的交互。

楊笛一目前領(lǐng)導著佐治亞理工學院的社會和語言技術(shù)實驗室,致力于結(jié)合 NLP、機器學習和社會科學來研究人類如何在社會環(huán)境中使用語言,她的工作是人工智能技術(shù)和社會科學理論的新穎融合。

早期的科研生涯中,她曾在導師 Robert Kraut(卡耐基梅隆大學人機交互領(lǐng)域開拓者之一)和 Eduard Hovy(NLP 領(lǐng)域權(quán)威)的指導下完成了一篇論文"Who did what: editor role identification in Wikipedia"。論文通過分析英文版維基百科的編輯內(nèi)容以識別編輯人員所扮演的角色,并研究每個角色如何影響文章質(zhì)量,從而幫助研究人員與社區(qū)管理人員更好地建立一個健康、繁榮的社區(qū)。

楊笛一 楊笛一

2016年,她更與美國癌癥協(xié)會合作,結(jié)合NLP與推薦系統(tǒng)去識別癌癥病人與醫(yī)生之間的交流。癌癥病人在溝通時會有很大的壓力,寫出來的文字一般較長,而實際想要表達的主要內(nèi)容可能只有幾點。楊笛一與團隊基于協(xié)會提供的真實數(shù)據(jù)進行分析,利用分層注意力網(wǎng)絡對協(xié)會網(wǎng)絡平臺上的大量對話信息進行文本分類,使用算法將其中諸如癥狀、需求等的重要內(nèi)容凸顯出來,再通過搭建推薦系統(tǒng)將尋求不同類別幫助的病人與不同的醫(yī)生相匹配,使得這一系統(tǒng)在效率人文關(guān)懷上雙雙得到了提升。

她說

“模型不僅要具備信息查詢與匹配的功能,還要以鼓勵的方式去真誠地傳達情感支持。”

楊笛一關(guān)于分層注意力網(wǎng)絡的論文 楊笛一

在楊笛一看來,語言不僅僅是語法、句法、話術(shù),語言的表達與傳輸是有一個目標的,而這個目標,便是說話者想要達到的意圖。因此,social NLP應該對語言有更深的理解,比如誰在說話、說給誰聽、想要傳達什么信息、目的是什么等等。她始終堅持以人為中心進行研究,力圖構(gòu)建具有社會意識的語言技術(shù),使 NLP 模型可以超越固定數(shù)據(jù)集或語料庫進行社會知識和常識推導,推理海量用戶生成的非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)下一個階段的自然語言理解。

憑此種種,楊笛一成功入選了 2021 年《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”中國,授勛類別為“人文關(guān)懷者”,實至名歸。她的工作毫無疑問能讓機器更好地在社會語境下理解我們的表達,甚至在某種程度上實現(xiàn)“共情”。

談及科研工作者中女性比例較小的問題時,楊笛一表示其中一個重要原因就是我們習慣的語言體系當中存在不少帶有強烈毀滅性的話術(shù),比如“女生小時候成績好,長大了數(shù)理化成績就不會好了”等等,其背后是社會文化對女性能力的貶低與束縛,往往需要好幾代人的努力方能消除。作為“科技向善”的堅定擁躉,她試圖用 NLP 技術(shù)去消除這類歧視、偏見和固有印象帶來的負面影響,目前正通過對 Twitter 等社交媒體上的信息進行研究,來應對諸如仇恨言論等社會問題,范圍涵蓋種族、性別等各方各面。

楊笛一關(guān)于疫情下種族歧視的論文 楊笛一

我們真的懂機器嗎?

我們建造巴別塔需要與機器合作,而協(xié)作與交流建立在“互相”的理解之上。當機器越來越“懂”我們的時候,反過來問一句,我們真的懂機器嗎?

乍一看這似乎有些反常識,你可能會說,機器是我們設(shè)計和制造的,答案當然是肯定的。其實……還真不一定,這要從人工智能與機器學習說起。從本質(zhì)上來講,但凡一個機制能通過反饋完成一個功能,它就是人工智能。其雛形非常簡單,比如早期的抽水馬桶就是,只要摁一下沖水鍵,馬桶就能在失誤很小的情況下自動完成沖水功能。而當我們的需求越來越復雜的時候,對人工智能的要求也水漲船高,于是機器學習被引入了。比如說我們要識別圖片中的對象是不是一只貓,按照傳統(tǒng)機器學習的思路,我們需要將貓的形象一一拆解,把貓耳朵、貓眼、貓爪等等特征都識別并抓取出來進行標注,工作量巨大,顯然不合理。于是,基于卷積神經(jīng)網(wǎng)絡的深度學習乃至強化學習應運而生,上述的特征都可以自動抓取了,只需要將海量數(shù)據(jù)(貓的圖片)一股腦全都丟進模型中訓練即可,只要數(shù)據(jù)量足夠大,它的準確度就會高起來,換句話說就是機器變“聰明”了。

貓的識別是深度神經(jīng)網(wǎng)絡最早的成功案例之一

搜狐科技

是不是很神奇?但事情沒有這么簡單。簡單來說,卷積神經(jīng)網(wǎng)絡是模仿人腦認知能力而設(shè)計出來的復雜結(jié)構(gòu),其本質(zhì)是一種試錯 (trial & error) 機制,通過行動然后收到正向或負向反饋來訓練其決策的準確程度。然而,這種“行動”和“反饋”是一種端到端 (end-to-end)機制,其決策過程、判斷權(quán)重以及影響因素等都無從得知,也就是所謂的人工智能神經(jīng)網(wǎng)絡“黑箱”,會導致不少令人啼笑皆非的后果。比如,某自動駕駛汽車廠商在測試的時候發(fā)現(xiàn),他們的汽車在行駛過程中開始以越來越明顯的規(guī)律向左偏轉(zhuǎn),卻沒有明顯的原因,開發(fā)者也無法理解這種行為。經(jīng)過數(shù)月的痛苦調(diào)試,系統(tǒng)架構(gòu)師才終于發(fā)現(xiàn)問題的根源——天空的顏色。由于某些訓練是在沙漠中進行的,天空是一種特定的色調(diào),因此神經(jīng)網(wǎng)絡在人們不知情的情況下建立起了左轉(zhuǎn)與光照條件之間的相關(guān)性;再比如,某圖像分類神經(jīng)網(wǎng)絡變得非常善于識別馬匹。系統(tǒng)的設(shè)計者對此非常驕傲,直到他們發(fā)現(xiàn)其高效的關(guān)鍵:由于馬的圖片經(jīng)常受版權(quán)保護,神經(jīng)網(wǎng)絡是通過搜索“”符號來對這些動物進行分類的。這一神經(jīng)網(wǎng)絡的“創(chuàng)造力”毋庸置疑,但出問題也是遲早的事情。

“人工智障” Infoworld

我們創(chuàng)造了人工智能,但顯然并不懂其背后的強化學習和卷積神經(jīng)網(wǎng)絡是如何工作的。那么,如何“打開黑箱”,從而發(fā)現(xiàn)并且避免潛在的問題呢?普林斯頓大學運籌和金融工程系、計算機系終身教授王夢迪就在進行著“開箱”的研究與探索,試圖探尋強化學習背后的簡潔規(guī)律。

正如前文提到的抽水馬桶,“控制論的核心思路在于,對于一個已知的系統(tǒng),機械系統(tǒng)或者電氣系統(tǒng),我們可以用微分方程完整地描述它,這時候我們就可以設(shè)計一套反饋的機制,用這套機制來實現(xiàn)我們的目的。這就是控制論,是人工智能的史前時代?!?/strong>王夢迪解釋道。與之相同,強化學習也是基于系統(tǒng)的狀態(tài),不斷地對系統(tǒng)進行動態(tài)操控。區(qū)別在于,對于強化學習算法來說,待控制的系統(tǒng)是一個黑箱函數(shù),不具備完整的數(shù)學描述,難以直接求解最優(yōu)策略。在麻省理工學院讀博期間,王夢迪選擇了偏數(shù)學、偏理論的系統(tǒng)和信息論方向,她也正是從控制論這一古老的理論思想出發(fā),結(jié)合最新、最前沿的強化學習,利用自己數(shù)學、統(tǒng)計學等方面的優(yōu)勢去解決強化學習“黑箱”的不可解釋性難以復現(xiàn)性等問題。

王夢迪 王夢迪

她說

“強化學習是人工智能的未來,應當是同控制論、統(tǒng)計學思想結(jié)合起來,用大數(shù)據(jù)的方法探索一個復雜系統(tǒng)的動態(tài)過程。這方面在強化學習的框架下都是空白,我的工作就是要把這個框架建立起來。"

2016年谷歌 DeepMind 的 AlphaGo 擊敗了人類圍棋頂尖選手李世石,也是強化學習算法第一次進入了大眾的視野?!拔覀?yōu)槭裁搓P(guān)心游戲?”曾在學術(shù)休假期間加盟 DeepMind 兼任高級研究科學家的王夢迪說道,“人類的幼兒在發(fā)展自己的智能的過程中,正是通過游戲來學習如何決策的,人工智能的發(fā)展也正處在這一階段,我們很快能看到人工智能將不僅僅能打游戲,而將解決更難的問題?!笔聦嵣?,在生物醫(yī)療、金融等高風險領(lǐng)域,數(shù)據(jù)量有限且容錯率極低,是不可能允許普通的強化學習人工智能像在游戲里那樣進行無限試錯的,強化學習的“黑箱”屬性決定了它的不可控性,這也是sim2real 的難點。王夢迪的工作則使得“可解釋的、透明的人工智能”得以實現(xiàn),不僅僅能夠檢測和消除偏差,提高模型的準確性和性能,以及減少訓練網(wǎng)絡所需的標記數(shù)據(jù)量,更讓人工智能在高風險領(lǐng)域的應用成為可能。

“黑箱”解密 Alice Yang

憑借種種突出貢獻,王夢迪成功作為“先鋒者”入選 2018 年《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”中國。

當前,王夢迪的研究工作聚焦數(shù)據(jù)降維離線強化學習,更看重“有效率”的嘗試,以最小的代價收集數(shù)據(jù),并保留最有內(nèi)容的信息。她的工作大大推動了“黑箱透明化”,換句話說,我們終于能夠知道人工智能機器人在“想”什么了。

我們該如何與機器合作?

當我們與機器人互相理解之后,接下來的問題就是要如何對話與合作了。建造巴別塔是字面意義上的“登天”行為,我們必須將各自的優(yōu)勢最大化地發(fā)揮出來才有可能實現(xiàn)。所幸,又有一位杰出的女性科學家為我們打好了“塔基”?!皺C器和人類有著迥異的能力,”普林斯頓大學計算機系助理教授陳丹琦如此說道,我們?nèi)祟愰L于邏輯推理和辨別語言中的暗示和精微玄妙之處,而機器則很擅長大規(guī)模地處理海量的數(shù)據(jù)?!?/strong>作為最早一批將深度學習應用于自然語言處理 (NLP) 的先行者之一,她的研究涵蓋了 NLP 當中理解語言本身結(jié)構(gòu)的任務以及具體應用兩大主要門類,在句法分析、知識圖譜、信息提取、對話及問答系統(tǒng)等幾個關(guān)鍵問題上都輸出了重要研究成果,幫助機器獲取知識且更好地回答問題。

陳丹琦 陳丹琦

陳丹琦從小即對人文很感興趣,同時又極其擅長數(shù)學,而與機器的不解之緣早在高中時期就已結(jié)下。她當時參加競賽并總結(jié)出一套分治算法,后來被普遍采用,影響力很大,還被業(yè)內(nèi)人士按照她的名字命名為“CDQ 分治”。2012年,她從清華姚班畢業(yè)去了斯坦福大學,開始做 NLP 相關(guān)的研究時才突然意識到NLP 實際上是人文和數(shù)學兩個世界的交集,對于自己來說是最好不過的,近乎一種使命。陳丹琦師從 NLP 領(lǐng)域權(quán)威 Christopher Manning,與其共同開發(fā)的算法后來催生了著名的谷歌 SyntaxNet,被稱為“全球最精準自然語言解析器”

后來,她在 Facebook (現(xiàn)Meta)旗下 AI 研究機構(gòu) FAIR 實習期間主導搭建了開放域問答系統(tǒng)項目——DrQA并發(fā)表論文"Reading Wikipedia to Answer Open-Domain Questions",闡述了這一項目是如何通過海量閱讀和檢索從維基百科上獲取答案,并回答 factoid 問題的。這一項目展示了機器的閱讀和問答能力是如何借助大規(guī)模開源的外部知識庫得到突破的,也為我們展現(xiàn)了一種可能,也即問機器任何一個問題,然后機器就能在海量的數(shù)據(jù)中找到相關(guān)的信息并將它們組織成為答案甚至是解決方案,協(xié)助我們進行決策。

DrQA Meta (Facebook)

類似的研究還有很多,其中不得不提的還有她的博士畢業(yè)論文"Neural Reading Comprehension and Beyond"。這篇專注于機器閱讀理解的、156頁的論文一經(jīng)發(fā)布,很快就成為了斯坦福10年來最熱門的博士論文之一,對此她的導師 Christopher Manning 也不吝溢美之詞:“她簡單、干凈、高成功率的模型吸引了眾人的目光……她的這篇畢業(yè)論文主要研究神經(jīng)網(wǎng)絡閱讀理解和問答,這些新興技術(shù)正在帶來更好的信息訪問方式。”簡潔、實用,這一直是她研究中貫穿始終的關(guān)鍵詞。

她說

“我對那些最根本、最簡單但卻最實用的方法倍感興奮。我非常關(guān)心如何構(gòu)建實用的 NLP 系統(tǒng),而且總是非常享受這個過程。我不希望我的研究成果只停留在一個美好的概念上,而是要被切實可行地投入到實際應用當中去。”

憑借以上種種貢獻,陳丹琦作為“先鋒者”成功入選了 2019 年《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”中國。如今,她已經(jīng)在普林斯頓組建了自己的 NLP 團隊,致力于解決更多 NLP 領(lǐng)域的核心問題。其中最有野心的可能是進一步利用機器大規(guī)模處理數(shù)據(jù)的優(yōu)勢,讓機器可以通過 NLP 獲取和理解互聯(lián)網(wǎng)上人類現(xiàn)存的所有知識,并能夠像人一樣“思考”,進一步就這些浩如煙海的知識進行邏輯推導,在很少甚至是沒有監(jiān)督的情況下得出判斷和決策。陳丹琦將它稱為“深度理解”

再造巴別塔

溝通,理解,共情,是任何時代建造“巴別塔”的基石。不論是人與人之間,還是人與機器之間,這些杰出的女性科學家們堅持從人本身出發(fā),為這個世界的互通有無做出了不可磨滅的貢獻?;蛟S有一天我們真的“通天”了,到達的可能不是所謂的“應許之地”,而是全人類的大同。

翻譯一切的“巴別魚” 《銀河系漫游指南》

世界發(fā)展需要科學,而女性是推動其發(fā)展的不可或缺的中堅力量。

自 1999 年以來,《麻省理工科技評論》每年都會從世界范圍內(nèi)遴選 "35 歲以下科技創(chuàng)新 35 人"(MIT Technology Review Innovators Under 35,簡稱 TR35),堪稱科技領(lǐng)域最權(quán)威的青年人才評價體系之一。2017 年,TR35 中國評選正式推出,目前已歷經(jīng)五屆,其中每年都不乏優(yōu)秀的青年女性科學家成功入選。

【正在報名】

2022 年"35 歲以下科技創(chuàng)新 35 人"中國的報名火熱進行中!歡迎 35 歲以下的中國(包括目前在海外的華人)青年學者、科研工作者、發(fā)明家、科技創(chuàng)業(yè)者等報名參選,同時也向社會各界征集候選人提名,共同尋找最有可能改變世界的 35 人。

【咨詢郵箱】

參考資料:

1.https://tr35.mittrchina.com/

2.https://www.boijmans.nl/en

6.https://www.aminer.cn/pub/5843777eac44360f108417ec/hierarchical-attention-networks-for-document-classification

7.https://scholar.google.com/citations?view_op=view_citation&hl=zh-CN&user=j9jhYqQAAAAJ&sortby=pubdate&citation_for_view=j9jhYqQAAAAJ:1yQoGdGgb4wC

8.https://faculty.cc.gatech.edu/~dyang888/

12.https://scholar.google.com/citations?view_op=view_citation&hl=zh-CN&user=33yNvIgAAAAJ&sortby=pubdate&citation_for_view=33yNvIgAAAAJ:EYYDruWGBe4C

13.https://mwang.princeton.edu/

14.https://engineering.princeton.edu/news/2020/06/29/princeton-engineering-faculty-members-receive-grants-covid-19-research-c3-ai-digital-transformation-institute

16.https://medium.com/analytics-vidhya/reinforcement-learning-a-surface-level-explanation-75690f03840d

17.https://www.infoworld.com/article/3315748/explainable-ai-peering-inside-the-deep-learning-black-box.html

21.https://www.cs.princeton.edu/news/ushering-machines-world-human-knowledge

22.https://www.technologyreview.com

- End -

關(guān)鍵詞: 看見她丨再造巴別塔 人工智能 機器學習 自然語言處理

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com