首頁 | 版面導(dǎo)航 | 標(biāo)題導(dǎo)航
   第01版:頭版
   第02版:新聞
   第03版:新聞
   第04版:新聞
   第05版:新聞
   第06版:新聞
   第07版:社會(huì)工作
   第08版:社會(huì)工作
   第09版:新聞
   第10版:新聞
   第11版:新聞
   第12版:公益資訊
   第13版:公益資訊
   第14版:公益資訊
   第15版:益言堂
   第16版:尋找慈善傳統(tǒng)
“心啟航”公益項(xiàng)目啟動(dòng) 助力偏遠(yuǎn)地區(qū)先心病患兒康復(fù)
北京大學(xué)攜字節(jié)跳動(dòng)推出古籍?dāng)?shù)字化平臺 以公益方式推進(jìn)古籍修復(fù)和活化
9月大額捐贈(zèng)一覽:共出現(xiàn)117筆大額捐贈(zèng),“9·5”瀘定地震備受關(guān)注

版面目錄

第01版
頭版

第02版
新聞

第03版
新聞

第04版
新聞

第05版
新聞

第06版
新聞

第07版
社會(huì)工作

第08版
社會(huì)工作

第09版
新聞

第10版
新聞

第11版
新聞

第12版
公益資訊

第13版
公益資訊

第14版
公益資訊

第15版
益言堂

第16版
尋找慈善傳統(tǒng)

新聞內(nèi)容
2022年10月18日 星期二上一期下一期
北京大學(xué)攜字節(jié)跳動(dòng)推出古籍?dāng)?shù)字化平臺 以公益方式推進(jìn)古籍修復(fù)和活化

    “識典古籍”網(wǎng)頁截圖

    10月11日,由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺“識典古籍”測試版正式上線。目前,該平臺涵蓋390部經(jīng)典古籍,主要來自《四部叢刊》,共計(jì)3000多萬字,即日起向公眾免費(fèi)開放。未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時(shí)將全部免費(fèi)開放。

    據(jù)了解,上述實(shí)驗(yàn)室系今年3月北京大學(xué)與字節(jié)跳動(dòng)合作成立,將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理?!白R典古籍”平臺上線,即是雙方合作的最新進(jìn)展。

    當(dāng)前,中國的古籍?dāng)?shù)字化還處于初級階段,面臨技術(shù)難度高、資金缺口大、人才緊張等難點(diǎn)。相關(guān)資料顯示,現(xiàn)存的20多萬種古籍中,只有八萬種完成影像數(shù)字化掃描,近四萬種完成文本數(shù)字化。據(jù)專家統(tǒng)計(jì),從1949年到2019年,國內(nèi)共修復(fù)整理出版古籍近3.8萬種,要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要300年時(shí)間;若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。

    記者了解到,早在2021年6月,字節(jié)跳動(dòng)與中國文物保護(hù)基金會(huì)成立古籍保護(hù)專項(xiàng)基金,用于國家圖書館等機(jī)構(gòu)的古籍修復(fù)、人才培養(yǎng),目前國圖修復(fù)珍貴古籍五十多冊。2021年7月,字節(jié)跳動(dòng)公益聯(lián)合中國文物保護(hù)基金會(huì)、國家圖書館發(fā)起“尋找古籍守護(hù)人”活動(dòng),招募推動(dòng)古籍活化、助力傳統(tǒng)文化傳承的創(chuàng)作者。

    據(jù)“識典古籍”項(xiàng)目負(fù)責(zé)人介紹,上述平臺當(dāng)前主要使用了三種技術(shù),包括文字識別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識別。文字識別技術(shù),是對古籍的影印版文字進(jìn)行單個(gè)切分,再進(jìn)行文字識別和順序識別。自動(dòng)標(biāo)點(diǎn)技術(shù),是通過序列標(biāo)注的方式對古籍自動(dòng)進(jìn)行標(biāo)點(diǎn)劃分。命名實(shí)體識別技術(shù),則是通過序列標(biāo)注識別文本中的人名、地名、書籍、時(shí)間、官職等信息。據(jù)悉,目前行業(yè)內(nèi)OCR識別準(zhǔn)確率平均為93%至94%,“識典古籍”的準(zhǔn)確率為96%至97%。

    與其他古籍?dāng)?shù)字化平臺相比,“識典古籍”具有自身的特點(diǎn),頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉(zhuǎn)換功能,便于專業(yè)研究人員、廣大古籍愛好者使用。同時(shí),“識典古籍”書目將持續(xù)更新,后續(xù)將上線手機(jī)移動(dòng)版。

    抖音集團(tuán)副總裁李濤表示,此前團(tuán)隊(duì)曾調(diào)研了其他機(jī)構(gòu)做的類似項(xiàng)目,發(fā)現(xiàn)大部分項(xiàng)目是出于商業(yè)目的考慮,從公益角度出發(fā)開展的項(xiàng)目比較少,這在一定程度上阻礙了古籍保護(hù)工作的快速推進(jìn)?!耙虼耍覀冞x擇通過公益的方式開展項(xiàng)目,這也是我們同合作的機(jī)構(gòu)及專家一起討論的結(jié)果,大家覺得這樣推動(dòng)項(xiàng)目開展可能更智能、更開放也更高效。”

    據(jù)介紹,未來,“識典古籍”將向全社會(huì)開放古籍閱讀檢索研究能力,還將實(shí)現(xiàn)全自動(dòng)整理校對,更高效地實(shí)現(xiàn)存量古籍全部數(shù)字化。同時(shí),平臺也鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),用戶甚至可參與再創(chuàng)作和再闡釋,助力古籍文化傳承和研究。

    一年多來,字節(jié)跳動(dòng)在古籍修復(fù)和活化上也有所進(jìn)展。此前,字節(jié)跳動(dòng)資助國家圖書館定向修復(fù)的珍貴古籍104冊件,現(xiàn)已完成50多冊件,包括一批稀有的樣式雷圖檔。在活化方面,抖音平臺推出“尋找古籍守護(hù)人”計(jì)劃,旨在激勵(lì)創(chuàng)作者通過音樂、說書、繪畫、復(fù)原美食等形式,普及古籍知識、演繹古籍內(nèi)容,讓古籍鮮活起來。(皮磊)