只要鍵入一個關(guān)鍵詞就能搜索到相關(guān)古籍文本,晦澀難懂的古文被加上了標(biāo)點和人名、地名等注釋……數(shù)字化技術(shù)正在“喚醒”古籍,讓它們來到更多人的眼前。近日,“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”研發(fā)的古籍?dāng)?shù)字化平臺“識典古籍”測試版正式上線,應(yīng)用了AI(人工智能)模型、分詞檢索技術(shù)等,向公眾免費開放390部經(jīng)典古籍。
AI提速古籍整理
過去,古籍的數(shù)字化整理主要依賴人力。國家圖書館副館長、國家古籍保護(hù)中心副主任張志清說,“在古籍修復(fù)領(lǐng)域,‘一萬個小時’恐怕出不來一個熟手,‘兩萬個小時’也未必能造就一個大師。”據(jù)統(tǒng)計,全國各高校、社會層面從事古典文獻(xiàn)專業(yè)研究的人才不足1萬人。
蓬勃發(fā)展的人工智能技術(shù)正在給古籍整理提速。“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”產(chǎn)品負(fù)責(zé)人隨手打開《論語集解》(何晏編寫)中的一張影像版,只見里面不僅存在著生僻字、異體字,文字排版也相對混亂,在《論語》原文的豎行大字后,還穿插排布著豎行小字,是后人對論語的注解。不僅如此,在這頁書左下角,還印有兩個印章,覆蓋在原文上。
這樣復(fù)雜的文本如何精準(zhǔn)識別?依靠的就是“看圖識字”,即COR文本識別技術(shù)。上述負(fù)責(zé)人介紹,首先要給人工智能模型“喂數(shù)據(jù)”,即用大量數(shù)據(jù)讓它學(xué)習(xí)古文用詞、行文順序、表達(dá)方式等。當(dāng)模型具有一定的“古文功底”后,會依次進(jìn)行單個切分、文字識別、順序識別。
在文字識別基礎(chǔ)上,技術(shù)團(tuán)隊還在嘗試更進(jìn)一步。例如,給行文添加標(biāo)點,對人名、地名、書籍、時間、官職等進(jìn)行標(biāo)注。目前,AI已可以支持逗號、句號、問號、感嘆號、頓號、冒號、分號等7種標(biāo)點的添加,準(zhǔn)確率達(dá)到96%至97%。
查找引入分詞檢索
除了運用AI技術(shù)整理古籍,智能搜索技術(shù)也在古籍?dāng)?shù)字化中“一展拳腳”。
上述負(fù)責(zé)人鍵入“學(xué)而時習(xí)之”做了一個簡單演示,只見搜索到的內(nèi)容有300余條,展示在最前面的是精準(zhǔn)包含“學(xué)而時習(xí)之”這句話的古文內(nèi)容,后面還有包括“學(xué)之”“時習(xí)之”“習(xí)之”等詞的古文內(nèi)容。
“好的搜索技術(shù)即便不是非常精準(zhǔn)地輸入了一個詞或者一句話,也能搜索出我們大致想要的內(nèi)容。這是因為采用了分詞搜索技術(shù)。”這位負(fù)責(zé)人解釋,分詞搜索技術(shù)已經(jīng)比較成熟,但應(yīng)用到古籍檢索中,一個難點是要學(xué)會古文用詞,這樣才能準(zhǔn)確地進(jìn)行分詞。不僅如此,在給一句話分詞后,還需要為每個詞設(shè)置不同權(quán)重。比如,“學(xué)而時習(xí)之”的“之”,在古文里很常見,所以權(quán)重較低,但“學(xué)之”“習(xí)之”的內(nèi)容會在更靠前展示。
有些古籍廣為人知的名字,可能并不是它的本名。比如人們常說的《詩經(jīng)》,本名其實叫《毛詩》。在搜索設(shè)置中,要做到用戶搜索《詩經(jīng)》或者《毛詩》,都能顯示出這本書。
還有更大“活化”空間
目前,“識典古籍”平臺已上線390部經(jīng)典古籍,共計3000多萬字,未來還計劃完成一萬種古籍的智能化整理,并開發(fā)手機版本,供公眾上傳古籍進(jìn)行智能化整理等。
古籍“活化”還有著更大的想象空間。因為歷史原因,我國一些古籍、畫作等流落海外,出現(xiàn)了“史在他邦、文歸海外”的遺憾,古籍的數(shù)字化回歸成為一種更實際的解決方案。例如,2021年,阿里巴巴公益基金會、中國國家圖書館等合作開展的“漢典重光”項目,曾幫助一批收藏于美國加州大學(xué)伯克利分校的中文古籍善本,以數(shù)字化方式回歸故土,首批20萬頁、3萬多字的古籍已完成數(shù)字化。
“如何能讓習(xí)慣了刷手機的用戶也能愛上晦澀難懂的古籍文獻(xiàn)?”這是北京大學(xué)數(shù)字人文研究中心主任王軍對古籍?dāng)?shù)字化更深度的思考。“智能化整理只是第一步,更要去重新詮釋。不是一字一句的翻譯,而是與當(dāng)代人生活結(jié)合在一起,為當(dāng)代人精神提供養(yǎng)料。”(趙語涵)
關(guān)鍵詞: 數(shù)字化技術(shù)正在喚醒古籍 AI提速古籍整理 智能搜索技術(shù) 古籍?dāng)?shù)字化平臺識典古籍測試版正式上線