人工智慧助力古籍線上“活”起來

昨天,由“北京大學-位元組跳動數字人文開放實驗室”研發的古籍數字化平臺“識典古籍”測試版正式上線。目前,平臺涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。

據瞭解,實驗室由北京大學與位元組跳動於今年3月合作成立,意在將人工智慧技術應用於古籍資源的智慧化整理,“識典古籍”平臺就是雙方合作的最新進展。

當前,我國的古籍數字化尚處於初級階段,面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示,現存的20多萬種古籍中,只有8萬種完成影像數字化掃描,近4萬種完成文字數字化。據專家統計,從1949年到2019年,國內共修復整理出版古籍近3。8萬種,要將現存古籍全部修復整理出來,可能需要300年時間,若利用人工智慧技術輔助修復整理,大概二三十年就能完成。

人工智慧助力古籍線上“活”起來

識典古籍網頁

“識典古籍”專案負責人介紹,平臺主要應用了三種技術,包括文字識別、自動標點和命名實體識別。文字識別技術是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。自動標點技術透過序列標註的方式對古籍自動進行標點劃分。命名實體識別技術則是透過序列標註,識別文字中的人名、地名、書籍、時間、官職等資訊。目前平臺準確率可達96%至97%。與其他古籍數字化平臺相比,“識典古籍”頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉換功能,便於專業研究人員、古籍愛好者使用。

未來三年,“識典古籍”將陸續完成一萬種古籍的智慧化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時將全部免費開放。平臺還將向全社會開放古籍閱讀檢索研究能力,實現全自動整理校對,更高效地實現存量古籍全部數字化。平臺同時鼓勵擁有文獻的學者自行上傳文獻,甚至可以參與再創作和再闡釋,助力古籍文化傳承和研究。

紙頁雖輕,卻承載著文化厚重。古代典籍是中華文化傳承千年的鮮活見證,位元組跳動著力推動古籍保護傳承。位元組跳動資助國家圖書館定向修復珍貴古籍104冊件,現已完成50多冊件;在活化方面,抖音平臺推出“尋找古籍守護人”計劃,旨在激勵創作者透過音樂、說書、繪畫、復原美食等形式,普及古籍知識、演繹古籍內容,讓古籍鮮活起來。

流程編輯:U016