《命名實體識別 NER 論文綜述:那些年,我們一起追過的卻仍未知道的花名 (一)》,2020-05,龔俊民(暱稱: 除夕)

原文鏈接:https://mp.weixin.qq.com/s/rf17rA0tBkD9elqF8nHhaw

本文介紹了NER的難點以及相應的解決方案,人機對話系統中的槽位標註也是NER任務,介紹的一些方法還是很有指導意義的。

難點1: 如何命名“命名實體”

何晗在《自然語言處理入門》一書中的總結如下:

  • 數量無窮。比如宇宙中恆星名稱、生物界中的蛋白質名稱,即便是人名,也是會隨着新生兒的命名不斷出現新的組合。
  • 構詞靈活。比如中國工商銀行,既可以稱爲工商銀行,也可以簡稱爲工行。一些機構名甚至存在嵌套現象,比如“聯合國銷燬伊拉克大規模殺傷性武器特別委員會”內部就嵌套了地名和另一個機構名。
  • 類別模糊。一些命名實體之間的區別比較模糊,比如地名和機構名。有一些地名本身也是機構,比如“國家博物館”,從地址角度來看屬於地名,但從博物館工作人員來看則是一個機構。

難點2: 實體的無窮

實體命名識別要面對的是排列組合可能無窮的詞表。模型對 OOV 的泛化能力遠低於我們的預期,所以通常做法是以統計爲主,規則詞典爲輔。

關於基於規則和詞典的方法,何晗在《自然語言處理入門》一書中將適於這種方法的實體分爲兩類

  • 對於結構性較強的命名實體,比如網址、E-mail、ISBN、商品編號,電話,網址,日期,淘寶或拼多多口令等,都可以用正則表達式來處理。
  • 對於較短的命名實體,如人名,完全可以用分詞方法去確定邊界,用詞性標註去確定類別。

關於結合模型與規則的方法,可以用「張華平」和「劉羣」等教授在提出的「角色標註框架」提出的思路。它的思路是,我們先爲構成命名實體的短語打好標籤,若標籤的序列滿足某種模式則識別爲某種類別的實體。可以理解爲爲實體以及實體的上下文打標籤,定義特徵。

另外就是混在中文裏的英文和數字,在char級別的時候,要注意後處理。

提到了一個好用的資源:https://github.com/fighting41love/funNLP/tree/master/data

難點3: 歧義消解

難點4: 邊界界定

介紹了3中將詞表信息融入模型的方法【值得一試】

  • Chinese NER Using Lattice LSTM
  • CNN-Based Chinese NER with Lexicon Rethinking
  • Simplify the Usage of Lexicon in Chinese NER

難點5: 標註數據缺失

介紹了兩個思路:

  • 找相似領域的有標記數據做領域遷移。
  • 用遠程監督的思路,用領域詞典生成標記數據

參考文獻

  • 何晗. 2019.《自然語言處理入門》. 中國工信出版社
  • Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL), 1554-1564.
  • Tao Gui, Ruotian Ma, Qi Zhang, Lujun Zhao, Yu-Gang Jiang, and Xuanjing Huang. Cnn-based chinese ner with lexicon rethinking.
  • Minlong Peng, Ruotian Ma, Qi Zhang, Xuanjing Huang. Simplify the Usage of Lexicon in Chinese NER.
  • Jingbo Shang, Liyuan Liu, Xiaotao Gu, Xiang Ren, Teng Ren, Jiawei Han. Learning Named Entity Tagger using Domain-Specific Dictionary.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章