論文淺嘗 - TACL2020 | TYDI QA:Google 發表一個多語言的問答語料庫

論文筆記整理:吳林娟,天津大學碩士。


鏈接:

https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf

動機

具有挑戰性、值得信賴的評估數據可以促進多語言模型的發展,爲了鼓勵對多語言問答技術的研究,作者提出了數據集TyDi QA,這是一個涵蓋了 11 種不同類型語言和204K個問答對的問答語料庫。其中的11種語言在類型上是多種多樣的,作者期望在這個數據集上表現良好的模型,能推廣運用到世界上的衆多其他語言。

簡介

問答系統給人們獲取信息帶來了極大的方便,現有的先進的問答系統主要都是通過了英文的數據集測試,但是很多能從問答系統中受益的人並不會英語。世界上的語言展現出驚人的語言現象,用以表達意義。《世界語言結構圖集》按照192種類型特徵對2600種語言進行分類,其中包括詞序(word order)重疊(reduplication)、按照句法編碼的語法含義格標記(case marking)複數系統問題標記相對化(relativization)等現象。如果想要構建能夠準確地表示所有人類語言的模型,那麼必須根據能夠證明這種多樣性的數據來評估這些模型。

本文數據構建的目標:

1.使研究工作朝着建立大約世界前100種語言的高質量問答系統的方向發展;

2.鼓勵研究能夠很好地跨越世界語言的語言現象和數據場景的模型。

作者描述了TYDI-QA語言的類型特徵,並提供了從數據中提取的一些相關現象的隱藏示例,以使研究人員瞭解非英語文本中存在的挑戰,然後在模型中去處理這些挑戰。作者也提供了一個開源的基線模型和帶有隱藏測試集的公共排行榜(https://ai.google.com/research/tydiqa),用於跟蹤社區的進展。

任務要求

TYDI QA提出了一個模型,其中包含一個問題以及一篇維基百科文章的內容,並要求它做出兩個預測:

  • 段落選擇任務:給定文章中段落的列表,如果存在答案則返回的包含答案的段落索引,如果不存在此類段落,則返回空。

  • 最小答案跨度任務:給定一篇文章的全文,返回答案的最小跨度的開始和結束字節索引;如果問題需要的答案是“是/否”,並且可以從文章中得出結論,則返回“是”或“否”;如果無法生成最小答案,則返回空。

數據集問答對的實例如下圖:

數據收集程序

  • 問題引出:只給人類標註員Wikipedia內容的一小部分去提出自己真正感興趣問題,以及無法從文本中得到答案提示的問題。例如當人類標註員看到文本中寫道“蘋果是一種水果...”,可能會寫下“史蒂夫·喬布斯死於什麼疾病?”這樣由好奇心激發出的問題。這使得標註員可以更自由地詢問他們真正感興趣的主題,包括提示文章中沒有涉及的主題。

  • 文章檢索:通過對問題文本執行Google搜索,將Wikipedia文章與每個問題配對,僅限於每種語言的Wikipedia域,並選擇排名最高的結果。爲了啓用將來的用例,文章文本是從每種語言的原子Wikipedia快照中提取的。

  • 答案標註:最後,給註釋者提供問題/文章對,並首先要求他們選擇最佳段落答案(文章中包含答案的段落),否則表明不可能回答(或沒有滿足答案的單獨的段落)。如果找到這樣的段落,則註釋者將被要求選擇一個最小的答案:儘可能短的字符跨度,同時能形成令人滿意的答案;理想情況下,這些詞的長度爲1-3個字,但在某些情況下可以覆蓋句子的大部分內容(例如,對於“什麼是原子?”這樣的定義)。如果問題要求布爾回答,則註釋者選擇是或否。如果沒有這樣的最小答案,則註釋者也指出這一點。

數據集沒有使用翻譯的方法,將其從英語擴充到其他的語言,一個是避免翻譯帶來的錯誤,還有就是防止通過翻譯後每一個問題都有英語的影子,這可能會使遷移學習的方法收益增加。

數據描述

數據類型多樣性

作者選擇數據集中語言的主要標準是類型多樣性-即它們使用不同的語言手段表達含義的程度換句話說,作者希望選定的語言不僅數量多,還能代表許多語言家族。此外,作者選擇具有與建模相關的多種數據特徵的語言。例如,某些語言可能只有很少的單語數據。有許多語言的並行翻譯數據很少,並且幾乎沒有經濟動機在不久的將來產生大量昂貴的並行數據。因爲過於依賴高質量機器翻譯的方法將無法在世界各地的語言中推廣。因此,我們選擇一些具有並行訓練數據的語言(例如日語,阿拉伯語)和一些具有很少並行訓練數據的語言(例如孟加拉語,斯瓦希里語)。儘管以這些語言收集數據涉及更大的困難,但作者希望它們的多樣性將使研究人員能夠更可靠地得出有關其模型在各種語言中的泛化程度的可靠結論。

數據統計

問答系統評估

系統評估方法

TYDI-QA任務的主要評估指標是F1,它是精確性和召回率的調和平均值,每一項都是通過語言中的示例計算出來的。然而,任務之間確實存在某些細微差別,其中主要時針對空處理的評估。首先,每個例子的分數在一種語言中計算平均值;然後對所有非英語語言進行平均,得到最終的F1分數。對英語的測量被視爲調試的有用手段,而不是TYDI QA任務的目標,因爲在現有的數據集中已經有大量的英語評估覆蓋。

人類表現的評估

作爲一個思維實驗,考慮將評價框架定爲“正確答案被接受爲正確答案的可能性有多大?”

作者提出了一個有首選答案的遊戲:目標是爲用戶提供他們喜歡的答案。如果註釋者正確選擇了這些首選答案,作者則希望多路註釋數據包含圍繞這些首選答案的峯值分佈。然後,玩家的最佳策略是預測那些答案,這些答案既是用戶首選的,就更可能出現在評估數據集中。作者希望有大量的人工註釋者或經過良好優化的機器學習系統來學習這種分佈,這將有助於人類表現評估的提升。

主要任務:與基準模型的結果比較

提供了使用最新發布的多語言BERT(mBERT)的基線的結果。與Alberti等設置類似,其中所有語言都在一個模型中共同訓練(表5)。此外,由於基線還沒有經過訓練,作者包含了始終預測第一段通過的系統的結果,因爲Wikipedia文章的第一段經常總結其最重要的事實。在所有語言中,我們都看到mBERT與較大的人類績效估計之間存在較大差距。

我們可以比較各種語言的分數嗎?抱歉不行。每種語言都有自己獨特的問題集,維基百科內容的質量和數量各不相同,註釋者的質量也不同,以及還存在其他變量。

黃金段落:一個簡化版的任務

在這個任務中,只提供了標準答案所在的段落而不是整個維基百科文章,並且社區了不可回答的問題,類似於MLQA和XQuAD,評估也參考類似XQuAD中的。臺語和日語被刪除了,因爲語言中沒有空格可能不利於一些現有的工具使用。

基於簡化版任務的基線結果如表7。

總結及展望

作者預見了幾個研究方向,這些數據將使研究能夠推動新的邊界,包括:

  • 研究形態學和問答匹配之間的相互作用;

  • 評估遷移學習的有效性,無論是對於有或沒有並行數據的語言;

  • 考慮到不同的數據場景和語言挑戰,機器翻譯在數據擴充和作爲運行時組件的問答中的有用性;

  • 通過顯式地所提供語言的子集進行訓練來研究零資源QA。

最後作者寫到,回答問題所需的內容常常沒有用更多的其他語言寫下來。對於這些語言,我們矛盾地面臨着需要跨語言答案檢索和翻譯的前景,同時資源貧乏的語言也缺少可信賴的翻譯系統所需的並行數據。期待着研究界找到更多方法來提高多語言模型的質量。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章