明朝版“今日頭條”,這個北航校友的開源AI腦洞很大

賈浩楠 發自 凹非寺
量子位 報道 | 公衆號 QbitAI

下面這段明朝萬曆年間的“今日頭條”,你能看懂嗎?

這條明朝新聞所講的,其實是:

小本生意免稅條約未能落實,小商販被嚴重剝削,以致百姓聚衆鬧事併火燒衙門,造成多人傷亡。王煬 搶救出公章。

還有另外一條:

這條新聞說的是:

陝西天鼓鳴。

這些明朝的“一句話”新聞,都是一個名叫HistSumm的AI算法,根據文言文提煉出來的摘要。

生成文本摘要的NLP見得多了,古漢語摘要總結還是第一次。這項研究來自英國謝菲爾德大學的北航校友,以及北航計算機系的團隊,和英國開放大學。

這項研究最神奇的是,用來處理文言文的算法,是用現代漢語數據訓練的。

這個AI,會寫明朝新聞

這篇論文題目是Summarising Historical Text in Modern Languages,文中提出的核心算法名爲HistSumm

研究團隊分別以古德語和古漢語作爲目標語言,來實現算法的摘要提取。

其中,古漢語部分的測試結果,選用了明朝歷史文獻。

《萬曆邸抄》,是明萬曆年間的“今日頭條”,抄錄自當時的官方“邸報”。內容包括皇帝詔諭、民生百態、軍事外交等等。

團隊使用HistSumm,對《萬曆邸抄》中的100多段文言文進行了摘要提煉。

比如這一段:

其中,story是原文,Expert是人類專家給出的摘要。

HistSumm在“相同詞彙對”(Identical Mapping)的映射方法下,給出的結果是:

宋應昌撤兵自朝鮮回京。

IdMap+CONV(CONV指簡繁漢字轉換增強語料庫訓練)給出的結果也是:

宋應昌撤兵自朝鮮回京。

怎麼樣,摘要是不是能直接上標題了?

再看另一個例子:



HistSumm給出的摘要爲:

高拱不忠,已死了,他妻還來乞恩,不准他。

高拱不忠,不准他妻來乞恩。

以上兩個結果也分別是IdMapIdMap+CONV給出的結果。

可以看出,算法對於一段文言文主要的人物 、事件、關係都能準確把握,只是偶然會遺漏一些細節。

在與最出色的跨語言學習模型XLM的結果對比中,HistSumm的表現都有所超越:

結果分別在ROUGE1、ROUGE2、ROUGEL基準下得到

實驗方法與思路

對古漢語進行摘要歷練的HistSumm,它的訓練數據,其實大部分都是現代漢語。

這是因爲,可供模型訓練的古漢語數據集,實在太少了。

於是,研究團隊構建了一個跨語言遷移學習框架

第一步,訓練模型的現代和古漢語單詞嵌入

對於像中文這樣的表意語言,基於筆畫(類似於字母語言的單詞信息)訓練的詞嵌入是實現最佳性能的途徑。因此團隊利用筆畫信息來提取漢字的特徵向量。

此外,還有一點很重要。與簡化字(在訓練資源中佔主導)相比,繁體字通常有更豐富的筆畫,例如,“葉”字,包含’艹’(植物)和’木’(木)的語義相關成分,而它的簡化版本(’葉’)則沒有。

繁體字的這些特性,有利於基於筆畫的嵌入方式。所以爲了提高模型的性能,團隊還對繁體化的漢字進行了額外的實驗。

建立特徵向量空間

接下來,團隊爲模型建立了兩個語義空間,空間中的特徵向量既來自現代漢語,也有古漢語。

對於特徵向量,主要採取兩種引導策略:完全無監督(UspMap)的方式和相同詞彙對(IdMap)方式。

前者只依賴於輸入向量之間的拓撲相似性,而後者則額外利用古今同意的詞作爲依據。

使用現代漢語數據集訓練

訓練階段,團隊使用了現代漢語數據集CSTS,訓練了一個只接受現代漢語輸入的總結器。

編碼器的嵌入權重,在建立特徵空間時,用相應的跨語言詞向量的現代語分區進行初始化。

而解碼器的嵌入權重則是隨機初始化的,可以通過反向傳播更新。

最後,就是模型的收斂。

團隊直接將編碼器的嵌入權重替換爲向量空間中的古漢語特徵向量,得到一個新的模型。這個模型可以用古漢語輸入,但輸出現代漢語句子,並且整個過程不需要任何外部並行監督。

簡單的總結一下,團隊讓模型能理解古文的關鍵,是在特徵向量空間中,建立互相聯繫的古漢語-現代漢語詞彙對。然後再用現代漢語數據訓練模型,之後替換掉對應的特徵向量。

北航校友科研成果

本研究由謝菲爾德大學主導,第一作者Xutan Peng,目前是英國謝菲爾德大學在讀博士生,研究方向是自然語言處。

Xutan Peng本科就讀於北京航空航天大學計算機系。

而本文的共同作者中,也有來自北航計算機系的Yi Zheng

論文的通訊作者,謝菲爾德大學的Lin Chenghua副教授,本科也畢業於北航計算機系。

本文另一作者Advaith Siddharthan博士,是英國開放大學Knowledge Media Institute的研究院。

論文地址:
https://arxiv.org/abs/2101.10759

開源代碼:
https://github.com/Pzoom522/HistSumm

本文分享自微信公衆號 - 架構真經(gentoo666)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章