基於知識遷移的跨語言機器閱讀理解算法

近日,阿里雲人工智能平臺PAI與華南理工大學朱金輝教授團隊、達摩院自然語言處理團隊合作在自然語言處理頂級會議EMNLP2023上發表基於機器翻譯增加的跨語言機器閱讀理解算法X-STA。通過利用一個注意力機制的教師來將源語言的答案轉移到目標語言的答案輸出空間,從而進行深度級別的輔助以增強跨語言傳輸能力。同時,提出了一種改進的交叉注意力塊,稱爲梯度解纏知識共享技術。此外,通過多個層次學習語義對齊,並利用教師指導來校準模型輸出,增強跨語言傳輸性能。實驗結果顯示,我們的方法在三個多語言MRC數據集上表現出色,優於現有的最先進方法。

論文:
Tingfeng Cao, Chengyu Wang, Chuanqi Tan, Jun Huang, Jinhui Zhu. Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension. EMNLP 2023 (Findings)

背景

大規模預訓練語言模型的廣泛應用,促進了NLP各個下游任務準確度大幅提升,然而,傳統的自然語言理解任務通常需要大量的標註數據來微調預訓練語言模型。但低資源語言缺乏標註數據集,難以獲取。大部分現有的MRC數據集都是英文的,這對於其他語言來說是一個困難。其次,不同語言之間存在語言和文化的差異,表現爲不同的句子結構、詞序和形態特徵。例如,日語、中文、印地語和阿拉伯語等語言具有不同的文字系統和更復雜的語法系統,這使得MRC模型難以理解這些語言的文本。

爲了解決這些挑戰,現有文獻中通常採用基於機器翻譯的數據增強方法,將源語言的數據集翻譯成目標語言進行模型訓練。然而,在MRC任務中,由於翻譯導致的答案跨度偏移,無法直接使用源語言的輸出分佈來教導目標語言。

因此,本文提出了一種名爲X-STA的跨語言MRC方法,遵循三個原則:共享、教導和對齊。共享方面,提出了梯度分解的知識共享技術,通過使用平行語言對作爲模型輸入,從源語言中提取知識,增強對目標語言的理解,同時避免源語言表示的退化。教導方面,本方法利用注意機制,在目標語言的上下文中尋找與源語言輸出答案語義相似的答案跨度,用於校準輸出答案。對齊方面,多層次的對齊被利用來進一步增強MRC模型的跨語言傳遞能力。通過知識共享、教導和多層次對齊,本方法可以增強模型對不同語言的語言理解能力。

算法概述

X-STA模型框架圖如下所示:

具體流程如下:

  1. 先將源語言的目標數據翻譯到各個目標語言,目標語言的測試數據也翻譯回源語言。
  2. 每項數據包含問題Q和上下文段落C。
  3. 構建並行語言對={源語言訓練數據,目標語言訓練數據}送入模型並使用反向傳播進行模型訓練。
  4. 將並行語言對={源語言測試數據,目標語言測試數據}送入模型獲取答案的預測。

算法精度評測

爲了驗證X-STA算法的有效性,我們在三個跨語言MRC數據集上進行了測試,效果證明X-STA對精度提升明顯:

我們也對算法的模塊進行了詳細有效性分析,我們可以發現各模塊均對模型有一定貢獻。

爲了更好地服務開源社區,這一算法的源代碼即將貢獻在自然語言處理算法框架EasyNLP中,歡迎NLP從業人員和研究者使用。

EasyNLP開源框架:https://github.com/alibaba/EasyNLP

參考文獻

  • Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
  • Rajpurkar, Pranav, et al. "SQuAD: 100,000+ Questions for Machine Comprehension of Text." Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.

論文信息

論文標題:Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension

論文作者:曹庭鋒、汪誠愚、譚傳奇、黃俊、朱金輝

論文pdf鏈接:https://arxiv.org/abs/2311.06758

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章