首箇中文多項選擇閱讀理解數據集:BERT最好成績只有68%,86%問題需要先驗知識
賴可 發自 亞龍灣移動凹非寺
量子位 報道 | 公衆號 QbitAI
橫掃一衆基準測試的BERT等NLP模型,好像沒那麼強了。
因爲它們遇到了一箇中文數據集。
康奈爾大學留學生髮布了第一個自由形式的中文閱讀理解多選題數據集,其中86.6%的問題都需要文檔外的知識。
在這個數據集上,各個模型的正確率最高也只有68%,比起人類的96%的表現,還是差距明顯。
數據集C3
機器閱讀理解最大的挑戰就是回答需要先驗知識的問題。而且中文在這方面的表現比英文差很多,一個原因是缺乏專門的數據集。
這份數據集命名爲C3(free-form multiple-Choice Chinese machine reading Comprehension dataset)
收集的主要是形式自由的多項選擇題,閱讀材料來自漢語水平考試和民族漢語考試,包括試卷和練習。
一共有13369篇文章和19577個問題,其中的60%用是訓練集,20%是開發集,20%是測試集。
數據集從類型上分爲兩個部分:
分別是正式書面文本和口語化文本。書面文本比口語化文本更長,但是兩者都不能拿來作機器閱讀長文章的訓練數據集。
數據集統計情況如下表:
需要先驗知識的問題共分爲十類
研究者分析了回答什麼樣的問題需要先驗知識。如果一個問題能夠在文檔中進行匹配,回答起來就幾乎不需要先驗知識,而需要先驗知識的問題分爲三類:
1、關於語言的知識:需要詞彙/語法知識,例如:習語、諺語、否定、反義詞、同義詞、單詞可能的含義和語法轉換。
2、關於某個特定領域:需要但不限於一些事實上的知識,這些事實與特定領域的概念,概念定義和屬性,概念之間的關係。
3、一般世界:需要有關世界如何運作的一般知識,或者被稱爲常識。在這個數據集中主要指的是百科全書假定不需要解釋讀者就知道的知識。
在第三類中,研究者又將問題分爲8個子類型:
1、計算:數值計算和分析
2、內涵:關於對某物或某人隱含的感情、情感和語氣
3、因果:事件B引發事件A,通常用來回答“爲什麼”的問題
4、暗示:要點、建議、意見、事實或事件沒有在文本中明確表達
5、部分與整體:需要知道A是B的一部分
6、場景:觀察到人類行爲或活動以及相應的時間/位置信息。還需要了解參與者的個人信息(如職業、教育程度、個性、心理或身體狀況),以及參與者之間的關係。
7、前提:如果A沒有發生,那麼B不會發生。
8、其它
基於支持回答問題句子的最少數量。研究者將所有問題分爲三類:單個,多個,獨立
所有問題的分類情況和簡寫標記如下表:
目前訓練結果離人類水平差距大
用已有的方法和神經網絡模型,研究者對數據集進行了訓練,結果如下:
語言模型的預訓練效果比基於規則的方法、基於Bi-LSTM的模型要明顯優秀,但是性能最佳的模型只正確率也只有68%,比起人類的96%的表現,還是差距明顯。
更好的模型還有待開發。
傳送門
https://github.com/nlpdata/c3
https://arxiv.org/abs/1904.09679