科大訊飛刷新SQuAD 2.0問答榜紀錄，機器閱讀理解全面超越人類

近日，科大訊飛再次登上 SQuAD 2.0 挑戰賽榜首，不過這次順帶刷新了一下紀錄：在EM（精準匹配率）和F1（模糊匹配率）兩項指標上全面超越人類平均水平，分別達到87.147和89.474。其中EM指標高出人類平均水平0.3個百分點，F1則是略微超過人類平均水平。同時，科大訊飛所提出的單模型效果也是目前榜單中最好的一個。

能取得這樣的成績，得益於科大訊飛團隊此次的參賽模型“BERT + DAE + AoA”。爲什麼這個模型能取得這樣高的精度？爲尋找答案，AI前線邀請到科大訊飛AI研究院資深級研究員、研究主管崔一鳴，來詳細瞭解科大訊飛在比賽中刷新紀錄的祕密。

EM、F1兩項指標首次全面超越人類平均水平

SQuAD 2.0是認知智能行業內公認的機器閱讀理解領域頂級水平測試，通過吸收來自維基百科的大量數據，構建了一個包含十多萬問題的大規模機器閱讀理解數據集。

SQuAD 2.0閱讀理解模型的評估標準包括兩個，即精確匹配（Exact Match）和模糊匹配（F1-score），這是對參賽者提交的系統模型在閱讀完數據集中的一個篇章內容之後，回答若干個基於文章內容的問題，然後與人工標註的答案進行比對之後得出的結果。

此前，這兩個指標中的單一指標均不斷被打破，評價指標超過人類平均水平甚至是兩個指標都超過人類平均水平尚屬首次，所以有人評價道，此次突破還是值得更多人關注的。

與其他機器閱讀理解任務不同，SQuAD 2.0 閱讀理解任務的模型不僅要能夠在問題可回答時給出答案，還要判斷哪些問題是閱讀文本中沒有材料支持的，並拒絕回答這些問題。

聽起來不簡單。那麼，科大訊飛是怎麼做到的呢？

BERT + DAE + AoA詳解

工作原理

科大訊飛能夠完成完成可回答問題，識別並拒絕無法回答的問題，最終刷新機器閱讀理解能力紀錄，與背後的參賽模型BERT + DAE + AoA息息相關。下面是關於這個模型的詳細工作原理和性能表現數據：

BERT + DAE + AoA模型融合了業界領先的自然語言語義表示模型BERT以及團隊持續積累和改進的層疊式注意力機制（Attention-over-Attention，AoA）。除此之外，本次提交的系統包含了全新技術DAE（DA Enhanced），這裏的DA有兩層含義，一個是數據增強（Data Augmentation），另一個是領域自適應（Domain Adaptation）。早在2017年，科大訊飛團隊就開始研究利用僞訓練數據提升神經網絡模型效果，並將之應用於中文零指代任務中。通過生成大量的僞數據可以進一步擴充已有的訓練數據，提供了更多的<篇章，問題，答案>三元組，有利於模型進一步學習三者之間的關係，從而提升系統效果。

本次提交的模型中，多模型的EM（精準匹配率）達到87.147，F1（模糊匹配率）達到89.474，其中EM指標高出人類平均水平0.3個百分點，F1則是略微超過人類平均水平。同時也可以看到，所提出的單模型效果也是目前榜單中最好的一個。

仍有改進空間

但是，BERT + DAE + AoA並非此類任務的完美解決方案，它還有很大的改進空間。

崔一鳴表示，由於SQuAD 2.0評測的一大側重點是加入了“不可回答的問題”，這就要求模型不僅能夠做好預測答案的工作（即SQuAD 1.1任務），還要同時判斷問題是否能夠使用篇章內容進行回答。我們可以看到，SQuAD 1.1上最新的一些模型在模糊準確率上已經可以達到93%以上了，這就意味着對於這些“可答”的問題來說提升空間已不是那麼大了。同時，對於“不可答”的這類問題，答對的話EM和F1均得1分，答錯的話兩個指標均不得分，而不像“可答”的這類問題一樣存在“灰度”，即只要答對一部分就能得一些分。

目前在SQuAD 2.0上，雖然科大訊飛取得了不錯的效果，但在拒答方面的準確率仍然要低於可答的部分。所以從這樣的一個客觀情況分析，後續仍然要設計更加精巧的模型來判斷一個問題是否能夠通過篇章進行回答。

目前主流的模型採用的是“多任務”的思想，機器需要同時完成兩件事：

1）預測一個問題是否可答

2）預測該問題在篇章中的答案

模型需要從訓練樣例中學習到哪些問題是可以回答，哪些問題是不能回答的（在訓練樣本中有對應的標記），對於可回答的問題同時要學習如何判斷篇章的起止位置從而抽取出對應的答案。在預測時，需要注意的是“可答”和“不可答”問題之間是需要有一個界線來劃分。所以，如何權衡這兩類回答的比例也是一個很難的問題。絕大多數模型目前採用手工閾值的方法來決定這個界限，但這樣的方法普適性較差，應進一步尋求一個自動閾值的方法來平衡這兩類問題的答案輸出。

怎樣看待暴力求解派？

“大數據+大算力”=大力出奇跡

前段時間，谷歌的BERT模型、OpenAI 推出的 NLP 模型 GPT 2.0 在業界引起了熱議，它對 Transformer 模型參數進行擴容，參數規模達到了 15 億，並使用更海量的數據進行訓練，最終刷新了 7 大數據集基準，並且能在未經預訓練的情況下，完成閱讀理解、問答、機器翻譯等多項不同的語言建模任務。業界還有一種說法，即模型越大、數據越多，可能效果就會越好。如果未來我們有了 50 億、100 億的參數，會不會在機器閱讀理解某些方面實現更多突破？如果能實現，會是在哪些方面？作爲NLP領域專家，崔一鳴怎麼看待像 GPT 2.0 這樣的暴力求解派呢？

崔一鳴表示，谷歌BERT模型的成功給我們很大啓示，也從真正意義上讓自然語言處理邁向大數據時代，爲整個自然語言處理領域做出了很大貢獻。不可否認的是“大數據+大算力”能得到“大力出奇跡”的效果。如果我們能夠應用更多的數據，有更強算力的設備，也許自然語言處理還會邁向一個更高的臺階。

機器學習距離真正的“理解”還有很遠的距離

但作爲每個子領域的研究人員，對於任務本身的深度理解是可以在巨人的肩膀上看得更遠，跳得更高。雖然我們目前欣喜地看到在機器閱讀理解的一些子任務中機器的效果已經超過人類的平均水平，但我們距離真正的“理解”還有很長一段路要走。目前機器只能完成一些“知其然”的工作，但在很多領域，例如司法、醫療，機器不僅僅需要“知其然”，更要“知其所以然”，這樣才能更好的輔助人們的工作。

相比圖像，語音領域、自然語言處理領域的發展相對來說是比較緩慢的。其主要原因在於自然語言並不是自然界中的物理信號，例如像素、波形等。自然語言是人類在進化過程中高度抽象化的產物，其語義信息是非常豐富的，但這也意味着對於自然語言的精準物理表示是很困難的。一個自然語言處理任務的性能效果往往很大程度的依賴於如何更好的表示自然語言，或者說如何用與當前自然語言處理任務更加契合的方法來表示自然語言。

縱觀近期在自然語言領域引起轟動的一些成果，例如艾倫人工智能研究院（AI2）提出的ELMo、谷歌提出的BERT、OpenAI提出的GPT等等，無一例外都是圍繞自然語言的表示所做出的貢獻。我們可以看到應用了這些模型的系統在自然語言處理的各個任務上均取得了非常好的效果。由此可見，自然語言的表示是一個需要持續推進的基礎研究，這對於整個自然語言處理領域都是非常重要的研究議題。

在崔一鳴看來，機器閱讀理解未來的發展方向包括：

1）閱讀理解過程的可解釋性

2）引入深層推理，外部知識的閱讀理解

3）閱讀理解與其他自然語言處理任務的結合

閱讀理解與問題拒答技術的結合已有落地

不過話說回來，再好的技術最終還是要落地於產品纔會發揮最終的價值，BERT + DAE + AoA在機器閱讀理解方面可以達到這麼好的效果，那什麼時候它才能被應用到科大訊飛的產品中呢？

崔一鳴表示，其實早在2017年，科大訊飛就已經開始探索閱讀理解與問題拒答技術的結合，併成功應用在智能車載交互系統中。機器閱讀理解技術目前成功應用在車載電子說明書產品中且已在實際車型上得到應用。通過讓機器閱讀汽車領域的材料，使機器深度理解並掌握對該車型的相關知識。在用戶提出問題時，不僅能夠快速反饋給用戶相關章節，並且還能夠利用閱讀理解技術進一步挖掘並反饋更精準的答案，同時針對不可回答的問題進行拒答，從而減少用戶的閱讀量，提高信息獲取的效率。

除了SQuAD這類的任務之外，科大訊飛還在探索對話型閱讀理解的研究。通過多輪人機對話完成閱讀理解並獲取所需要的信息更加符合真實的應用場景，也是未來機器閱讀理解技術落地的一大方向。

背後的團隊

最後，我們瞭解了一下此次參賽模型背後的團隊——哈工大訊飛聯合實驗室和河北省訊飛人工智能研究院聯合團隊。

其中，哈工大訊飛聯合實驗室於2014年由科大訊飛與哈爾濱工業大學聯合創建，全稱是“哈爾濱工業大學•訊飛語言認知計算聯合實驗室”（HIT•iFLYTEK Language Cognitive Computing Lab，簡稱HFL）。根據聯合實驗室建設規劃，雙方將在語言認知計算領域進行長期、深入合作，具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究。重點突破深層語義理解、邏輯推理決策、自主學習進化等認知智能關鍵技術，支撐科大訊飛實現從“能聽會說”到“能理解會思考”的技術跨越，並圍繞教育、司法、人機交互等領域實現科研成果的規模化應用。

科大訊飛河北省訊飛人工智能研究院，成立於2019年1月，是科大訊飛推動人工智能戰略落地和京津冀區域人工智能規模化應用和產業發展重要核心研發團隊之一。研究院重點聚焦人工智能中認知智能技術，實現認知基礎前沿技術、教育認知技術、司法認知技術等技術在政務、各公共服務等領域的應用。

作者簡介

崔一鳴，科大訊飛AI研究院資深級研究員、研究主管。哈爾濱工業大學社會計算與信息檢索研究中心（SCIR）在讀博士研究生，2014年和2012年畢業於哈爾濱工業大學計算機科學與技術專業分別獲得工學碩士以及工學學士學位。長期從事並探索閱讀理解、問答系統、機器翻譯、自然語言處理等相關領域的研究工作。曾作爲主要研究人員參加了2012年國際口語機器翻譯評測（IWSLT2012）、2014年國際口語機器翻譯評測（IWSLT2014）、2015年NIST機器翻譯評測（NIST OpenMT 15）並獲得了多項第一名，2017年至今帶領閱讀理解團隊多次獲得國際權威機器閱讀理解評測冠軍，同時，在自然語言處理頂級及重要國際會議ACL、AAAI、COLING、NAACL上發表多篇學術論文，並擔任ACL/EMNLP/COLING/NAACL/AAAI等國際頂級會議程序委員會委員，JCSL、TKDD等國際ESI期刊審稿人等學術職務。

科大訊飛刷新SQuAD 2.0問答榜紀錄，機器閱讀理解全面超越人類

EM、F1兩項指標首次全面超越人類平均水平

BERT + DAE + AoA詳解

工作原理

仍有改進空間

怎樣看待暴力求解派？

“大數據+大算力”=大力出奇跡

機器學習距離真正的“理解”還有很遠的距離

閱讀理解與問題拒答技術的結合已有落地

背後的團隊

作者簡介

DAPPER 事務 TRANSACTION

Java中線程的創建方式

愛奇藝全球首發互動視頻標準IVG，融合多種AI技術

甲骨文中國研發中心裁員900人，給出“N+6”賠償方案

2019年，醫療AI的熱潮將會退去

一鍵修復女神林青霞舊照，背後用到了哪些AI技術？

PaddlePaddle首次曝光全景圖和中文名“飛槳”，發佈11項重大更新

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結