第一篇關於深度學習在命名實體識別（NER）上應用的綜述文章

原創

2020-06-09 23:33

《A Survey on Recent Advances in Named Entity Recognition from Deep Learning models》

這是第一篇關於深度學習在NER上應用的綜述文章

這篇文章比較注重多語言和多領域的基於深度學習NER的綜述

1.數據集

作者列舉了目前一些常用的數據集，包括語言類數據和領域類數據。語言類數據就比較廣泛，基本各種語言都可以用來做NER任務；領域類數據比較集中在生物和醫藥類數據，還有社交媒體數據。

2.評估方法

NER系統的評估方法常常用F score來評估，F1最常用。

接下來就是重點對各種模型的綜述，作者對NER模型分爲四個大類：

3.方法

3.1 基於知識的NER系統

基於知識的NER不需要對數據進行標註訓練，而是依賴於詞典和領域特殊知識。這種方法常常具有較高的準確率，但召回率會比較低。

3.2 無監督和引導

這些無監督和引導系統往往先加入一些seeds種子標籤和一些正字特徵進行NER。在這些方法中就會經常考慮使用句法、正字、規則等知識。

3.3 特徵工程的有監督

特徵工程的有監督方法主要依賴於機器學習中的方法。常用的方法是HMM、SVM、CRF和一些decision tree 模型。

3.4 特徵下的神經網絡

作者利用embedding layer的不同輸入形式進行了神經網絡的四種劃分：

這些模型通常會在最後NN輸出層套上一個詞標註模型，比較常用的就是CRF模型。但總的來說這些模型嘗試了各種NN的變種進行NER任務。

4 總結

對於整個綜述，作者得出以下幾個發現finding：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.