龍泉寺賢超法師:用 AI 爲古籍經書識別、斷句、翻譯

來源:HyperAI超神經

本文約2800字,建議閱讀5分鐘

來自最強科研寺廟龍泉寺的賢超法師,近年來一直在研究人工智能與文獻古籍的融合,目前,他已帶領的《大藏經》團隊實現 AI 自動標點、文白翻譯、古籍文字識別等技術實踐。

關鍵字:NLP,LSTM,自動標點

坐落在京郊鳳凰嶺腳下的龍泉寺,稱得上全國甚至全球科研實力最強的佛教寺廟。

憑藉當年學誠法師的一句「佛教是古老的,但佛教徒是現代的」,推動了龍泉寺裏的高僧們搞科研、寫代碼,將佛學與新技術結合,將項目大衆化、國際化。成果不斷,屢上熱搜,被外界持續關注。

近期龍泉寺的賢超法師,參加了國內某技術大會,分享了使用人工智能對《大藏經》進行整理和校勘的技術實踐。

 佛系 AI 的誕生:讓佛經更易讀

賢超法師原是北京大學物理學院凝聚態物理碩士,2007 年他從北大畢業,2008 年在龍泉寺皈依,此後一直致力於龍泉大藏經的編修與佛學義理研究。

2016 年,AlphaGo 在戰勝李世石的歷史性事件,引起了賢超法師對 AI 的關注。從那時候起,他便開始嘗試將 AI 和自己正在研究的 OCR 技術以及自動標點相結合。

賢超法師在 Techo Park 開發者大會上介紹其研究成果

 佛原生 AI 解決古籍經文痛點 

龍泉寺在整理和校勘的《大藏經》爲佛教經典的總集,也稱爲一切經。在漢傳佛教的兩千多年裏,歷朝歷代都對《大藏經》進行了翻譯、增補、修訂。

流傳至今有數十個版本,少的有五千多字,多的有一億兩千萬字。

《乾隆版大藏經》的修訂參與官員、學者、高僧等 60 餘人,刻字、刷印和裝幀等工匠 860 餘人,歷時六年完成(圖爲《乾隆版大藏經》雕版)

2012 年,龍泉寺就着手整理《大藏經》,計劃用整整十年的時間完成。因爲傳統方法對古籍的整理主要有版本校對、校勘、標點,這些步驟能夠保證當代讀者,也可以儘可能理解晦澀、生僻的經文。

三年後,龍泉寺整理出版了《南山八大部》;再次年,龍泉寺的藏經辦公室成立,旨在探索利用人工智能技術,研發出基於深度學習的單字識別引擎;

2017年,龍泉寺成立人工智能與信息技術中心,研發出能識別各種不同大藏經版本的整列識別引擎,併成功的將《六十華嚴》的大藏經版本進行電子化。

賢超法師目前擔任藏經辦公室主任,負責《大藏經》的整理工作。

 自動標點:OCR +深度學習 

爲了降低人們閱讀古文典籍的門檻,提高學者的工作效率,在近年來賢超法師團隊,運用了包括深度學習、OCR 在內的技術改變傳統《大藏經》的解讀方式,目前已經取得了頗爲驚豔的效果。

現代漢語中,句號、引號、書名號等常用標點近十種,古漢語中僅有的句號、頓號,經文中也很少出現,難以閱讀

賢超法師介紹道,所謂自動標點,是指在沒有人工干預的前提下,根據算法給古籍文本自動標註現代中文標點的技術,這主要是爲了方便現代讀者閱讀。

此前,已有人工智能爲古文加標點的相關研究,不過賢超法師表示,之前基本只是爲古文加句號,他認爲這個做法比較保守,比較學術性。

而他的團隊將深度學習運用到了自動標點上,可以以更高的準確性,給古文添加句號、逗號、問號、感嘆號、冒號、分號和頓號其中標點符號。經過驗證,他們所研發的 Transformer 標註結果,和人類的標註結果幾乎已經無法區分。

 RNN+LSTM+ResNet 效果全面提升 

自動標點,在 NLP 領域來說,就是一個簡單的序列標註問題。解決這類問題的標準方法,就是使用循環神經網絡(RNN)。

爲了增強 RNN 的性能,在此基礎上又發展出來了雙向 RNN,也就是每一時刻的輸出不僅僅取決於之前時刻的所有輸入,而是同時取決於之前和之後的輸入。之後,賢超法師團隊又將 LSTM 方法引入。

但是此前基於這些技術所實現的自動標點,效果仍不是很令人滿意。賢超法師團隊之所以達到出乎意料的效果,是因爲他們在此前的基礎上,引入了 ResNet 殘差網絡(Residual network)。

團隊 2019 年發表論文《大藏經的彙編:當 AI 遇見佛教》,介紹了其自動標點技術

賢超法師解釋道,以往的神經網絡最多就是十幾層、二十多層的結構,如果層數再多,訓練結果就不太容易收斂了。而殘差網絡動輒幾百層,甚至上千層。更深的網絡有助於捕捉到更深層的語義信息,這是其大獲成功的關鍵。

團隊也曾嘗試使用卷積神經網絡(CNN),最終效果是,殘差網絡比卷積神經網絡的標點準確率平均高出 20-30% 左右。

AI 自動標點工具效率如何呢?賢超法師用一天時間完成了 2 萬字左右規模的古文標點,按照古籍標點每千字 15 元的一般稿酬水平,相當於一天創造了 300 元的經濟價值。即使自動標點的準確率只按照 60% 來算,其每天也創造了 180 元的價值。

團隊對該自動標點工具也在不斷升級目前最新一代的準確率達到 93.3%

目前,由於賢超法師團隊的訓練數據多取自佛經,因此其自動標點更適合標點佛教典籍。不過,他表示,未來該技術也將應用在,經史子集等更多領域的古文獻整理工作之中,從而讓學者們擺脫機械、重複性的勞動。

今後的古籍點校工作模式有希望改爲:AI 先斷句、加標點;專業學者進行後期校對、修改。

賢超法師團隊在 18 年就開源了這一自動標點的在線服務,訪問古籍·酷(http://gj.cool)可以試用,還可以申請免費調用 API。

 識別、翻譯:AI 成爲佛經漢化百寶箱

除了自動標點,賢超法師還將 AI 應用古籍研究的多個方面。

文白對句:對齊 & 翻譯 

文白對句,也就是古文到現代文的對齊和翻譯。爲了實現 AI 文白對句,賢超法師首先構建了一個文白對齊的語料庫,然後設計了一個對齊算法,取得了很好的效果。根據相似度和差異度這兩個獨立指標,可以非常容易地定位出對齊錯誤的句子。

將《大藏經》翻譯並單句分離開對齊有助於人工後期檢索與校對

由於《大藏經》專業名詞衆多,且歷代翻譯著作語料繁雜,因此並非古文相關專業就能搞定。《大藏經》的總字數以億計,如果僅依靠有限的幾位專家,工作量將十分巨大,所以,AI 的介入,爲專家們分擔了不少工作量。

基於深度學習的 OCR,識別古籍文字 

目前市面上的 OCR 軟件都是針對印刷體的,因此不能很好地識別古籍文獻中的字體。

賢超法師及其合作團隊,基於 CNN+LSTM+CTC 框架,開發了新的 OCR 引擎。然後基於《大藏經(高麗版)》的七萬多張整圖,168 萬條文本行圖像的數據集進行訓練。

基於弱監督學習的精確文字分割

最終,其開發的 OCR 方法能夠進行古籍的單字識別、單列識別和半自動的多列識別,能夠有效地完成各類古籍的電子化工作。

OCR 軟件識別古文將其數字化

 科技與佛法:以悲憫爲內核的不同外化

佛法與科技,距離並不遙遠。

我們也曾在《本世紀,佛祖派機器人來弘揚佛法》一文中,對佛教與科技融合的趨勢做出過報道,近年來湧現的賢二機器人、機器觀音、智能佛珠等等,早已講科技深刻和諧地融入進佛法。

科技與佛學的融合中佳作頻出,吸引關注

龍泉寺的另一位知名高僧、IT 禪修營的創辦者賢信法師,在一次訪談裏被提問佛法和科技的關係。

他回答:科技,是追求物質世界的真。佛法,是內心世界的真。很多在科學上做出探索、在技術上做出探索的人,最開始是抱着想爲人類做貢獻的心,跟佛教提出最慈悲的追求也是相共的,這就是科技與佛法的共同點。

參考資料:

賢超小和尚公衆號:《人工智能與中華文明的碰撞交融》

2050 雲棲大會:《賢度法師——龍泉寺的科技實踐》

龍泉寺自動標點工具:http://gj.cool/gjcool/index

編輯:王菁

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章