撰文:楊逍
不可否認(rèn)的是,人工智能(AI)正在加速全行業(yè)變革。
小到生活中常見(jiàn)的人臉識(shí)別、語(yǔ)音助手,大到基礎(chǔ)科學(xué)領(lǐng)域的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、核聚變控制等,如今的人工智能應(yīng)用,已經(jīng)遍地開(kāi)花。
而這一次,它又瞄向了記載歷史的碑文。
圖|在復(fù)原古代銘文方面,AI 或許已經(jīng)戰(zhàn)勝了人類(lèi)(來(lái)源:Nature)
今天,來(lái)自 DeepMind、威尼斯大學(xué)、哈佛大學(xué)的聯(lián)合研究團(tuán)隊(duì)及其合作者,提出了一種可以復(fù)原、定位、定年古希臘銘文的深度神經(jīng)網(wǎng)絡(luò)——Ithaca(以荷馬史詩(shī)《奧德賽》中的希臘島嶼命名)。
相關(guān)研究論文以“Restoring and attributing ancient texts using deep neural networks”為題,以封面文章形式發(fā)表在權(quán)威科學(xué)期刊Nature上。
研究結(jié)果顯示,當(dāng) Ithaca 單獨(dú)被用于復(fù)原受損銘文時(shí),準(zhǔn)確率可以達(dá)到 62%,而參與此次研究的歷史學(xué)家,單獨(dú)預(yù)測(cè)準(zhǔn)確率僅為 25%;而當(dāng) Ithaca 與歷史學(xué)家“合作”后,這一數(shù)字可以提升到 72%。
而且,Ithaca 還能以 71% 的準(zhǔn)確度判斷這些銘文的原始位置,鑒定年代與歷史學(xué)家提出的范圍也相差少于 30 年。
在論文的最后,研究人員表示,研究方法適用于手稿學(xué)、錢(qián)幣學(xué)和紙草學(xué)等所有與古代文本相關(guān)的學(xué)科,也適用于古代、現(xiàn)代的任何語(yǔ)言。
這一研究成果,或?qū)⑨尫湃斯ぶ悄芘c歷史學(xué)家的合作潛力,提升我們對(duì)人類(lèi)歷史的理解。
挖掘遺失的歷史
從狹義上講,人類(lèi)文字的誕生,標(biāo)志著歷史的開(kāi)端。
原始文字是人類(lèi)用來(lái)紀(jì)錄特定事物、簡(jiǎn)化圖像而成的書(shū)寫(xiě)符號(hào),對(duì)人類(lèi)理解過(guò)去人類(lèi)文明和當(dāng)前世界至關(guān)重要。
早期文字以圖畫(huà)形式存在,有些是以形表意,有些是以形表音。
象形文字就屬于以形表意的范疇,與語(yǔ)音關(guān)系不大,漢字便由從象形文字漸次演變而成。
圖|不同象形文字的演化(來(lái)源:維基百科)
而古埃及文、羅馬文字和拉丁文字等以形表音的圖畫(huà)文字,也在漫長(zhǎng)的人類(lèi)歷史中,逐漸演化成語(yǔ)音符號(hào),即外文字母。
不同的外文字母可以組合成不同的外國(guó)文字。
圖|不同語(yǔ)言文字的字體與樣式(來(lái)源:維基百科)
因此,要想更好地探究古代文明史,研究古人直接書(shū)寫(xiě)在石頭、陶器或金屬等材料上并留存至今的銘文,是一種通用且有效的研究手段。
例如,早在 2500 多年前,古希臘人便開(kāi)始在石頭、陶器和金屬上記錄從租約、法律到日歷、預(yù)言的一切。正是這些史料,讓歷史學(xué)家們對(duì)地中海地區(qū)有了詳細(xì)的了解。
但不幸的是,這一記錄并不完整。幾個(gè)世紀(jì)以來(lái),眾多幸存下來(lái)的銘文也陸續(xù)遭到破壞,從原來(lái)的位置被移走,或被販運(yùn)。
而且,由于各種外部原因,這些文本難以辨認(rèn),書(shū)寫(xiě)時(shí)間也不確定。
盡管當(dāng)前歷史學(xué)家們可以借助現(xiàn)有方法重建出缺失的文本,但目前的年代測(cè)定技術(shù)(如放射性碳年代測(cè)定法)卻無(wú)法在這些材料上使用。
基于以上原因,這些銘文解讀起來(lái),既困難又費(fèi)時(shí)。
歷史學(xué)家的 AI 助手
如何解決上述問(wèn)題?如今,AI 做得或許要更好一些。
當(dāng)前,自然語(yǔ)言處理(NLP)模型通常會(huì)使用大量單詞來(lái)進(jìn)行訓(xùn)練,因?yàn)檫@些單詞在句子中出現(xiàn)的順序與它們之間的關(guān)系可以提供額外的含義。比如,“once upon a time” 一起出現(xiàn),就比單個(gè)字符或單詞更有含義。
在此次研究中,Ithaca 是基于帕卡德人文學(xué)院(Packard Humanities Institute)提供的最大希臘碑文數(shù)字?jǐn)?shù)據(jù)集訓(xùn)練的。
為確保 Ithaca 模型在使用缺失字符時(shí)仍能正常進(jìn)行訓(xùn)練,研究人員同時(shí)將單詞和單個(gè)字符作為輸入,模型核心的稀疏自我注意機(jī)制并行地評(píng)估這兩個(gè)輸入,允許 Ithaca 根據(jù)需要評(píng)估銘文。
結(jié)果表明,Ithaca 的設(shè)計(jì)決策和可視化輔助可以幫助歷史學(xué)家更容易地復(fù)原銘文,強(qiáng)大的人機(jī)合作潛力,有助于更好地還原歷史真相,甚至幫助解決一些爭(zhēng)議性問(wèn)題。
例如,歷史學(xué)家們對(duì)雅典頒布的一系列重要法令的日期存在分歧,這些法令是在蘇格拉底和伯里克利等著名人物在世時(shí)期頒布的,被認(rèn)為是在公元前 446/5 年之前書(shū)寫(xiě)的。而 Ithaca 與歷史學(xué)家一起,將這一日期更新到了公元前 424/3 年。
圖|碑文記錄了迦爾西斯城對(duì)雅典的效忠誓言。(來(lái)源:衛(wèi)城博物館)
放眼歷史長(zhǎng)河,盡管這兩個(gè)數(shù)字看起來(lái)差別不大,但這些法令對(duì)當(dāng)前人類(lèi)理解古雅典的政治史是至關(guān)重要的。
此外,歷史學(xué)家們也與 Ithaca 一起,重新復(fù)原了希臘歷史上一次關(guān)于雅典衛(wèi)城的法令。
圖|修復(fù)后的銘文記錄了一項(xiàng)關(guān)于公元前 485/4 年雅典衛(wèi)城的法令。
Ithaca 的架構(gòu)側(cè)重于協(xié)作、決策支持和可解釋性。盡管單獨(dú)使用 Ithaca 修復(fù)受損銘文的準(zhǔn)確率只有 62%,但當(dāng)與歷史學(xué)家們協(xié)同工作時(shí),可以將人類(lèi)的準(zhǔn)確率從 25% 提高到 72%。
這一變化證明,Ithaca 具有強(qiáng)大的協(xié)同效應(yīng)。
“學(xué)者們不會(huì)被取代,相反,Ithaca 就像一只獵犬,會(huì)為學(xué)者尋找線索,但不做最后的決定。”英國(guó)倫敦國(guó)王學(xué)院(King"s College London)榮譽(yù)退休教授 Charlotte Roueche 在評(píng)論文章中表示。
Roueche 認(rèn)為,這一進(jìn)步不應(yīng)該被解讀為對(duì)上百年傳統(tǒng)的威脅,而應(yīng)該是對(duì)傳統(tǒng)的一種補(bǔ)充。人工智能不應(yīng)該讓學(xué)者變得多余,而應(yīng)該是挑戰(zhàn)他們對(duì)自認(rèn)為已經(jīng)知道的東西的理解。
原文鏈接:
https://www.nature.com/articles/s41586-022-04448-z
https://en.wikipedia.org/wiki/Writing_system
關(guān)鍵詞: DeepMind最新AI模型 開(kāi)始破譯古希臘銘文了 人工智能