知識圖譜——命名實體識別(NER)

一、NER簡介

       NER又稱作專名識別,是自然語言處理中的一項基礎任務,應用範圍非常廣泛。命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構名、日期時間、專有名詞等。NER包含以下model:

  • 3 class model : Location, Person, Organization
  • 4 class model : Location, Person, Organization, Misc
  • 7 class model : Time, Location, Organization, Person, Money, Percent, Date

       NER系統就是從非結構化的輸入文本中抽取出上述實體,並且可以按照業務需求識別出更多類別的實體,比如產品名稱、型號、價格等。因此實體這個概念可以很廣,只要是業務需要的特殊文本片段都可以稱爲實體。命名實體識別技術是信息抽取、信息檢索、知識圖譜、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。

二、NER的技術發展

       早期基於規則、字典的方法就不細說。目前使用最廣泛的應該是基於統計的方法(對語料庫的依賴比較大),利用大規模的語料來學習出標註模型,來對各個位置進行標註。CRF是NER目前的主流模型,它的目標函數不僅考慮輸入的狀態特徵函數,而且還包含了標籤轉移特徵函數。在已知模型時,給輸入序列求預測輸出序列即求使目標函數最大化的最優序列,是一個動態規劃問題,可以使用Viterbi算法解碼來得到最優標籤序列。CRF的優點在於其爲一個位置進行標註的過程中可以利用豐富的內部及上下文特徵信息。

線性鏈條件隨機場的無向圖模型

       隨着深度學習的發展,DL-CRF模型做序列標註被提出。在神經網絡的輸出層接入CRF層(重點是利用標籤轉移概率)來做句子級別的標籤預測,使得標註過程不再是對各個token獨立分類。

三、BiLSTM-CRF

       LongShort Term Memory網絡一般叫做LSTM,是RNN的一種特殊類型,可以學習長距離依賴信息。LSTM 由Hochreiter &Schmidhuber (1997)提出,並在近期被Alex Graves進行了改良和推廣。在很多問題上,LSTM 都取得了相當巨大的成功,並得到了廣泛的使用。LSTM 通過巧妙的設計來解決長距離依賴問題。
所有 RNN 都具有一種重複神經網絡單元的鏈式形式。在標準的RNN中,這個重複的單元只有一個非常簡單的結構,例如一個tanh層。

傳統RNN結構

       LSTM 同樣是這樣的結構,但是重複的單元擁有一個不同的結構。不同於普通RNN單元,這裏是有四個,以一種非常特殊的方式進行交互。

LSTM結構

       LSTM通過三個門結構(輸入門,遺忘門,輸出門),選擇性地遺忘部分歷史信息,加入部分當前輸入信息,最終整合到當前狀態併產生輸出狀態

LSTM各個門控結構

       應用於NER中的biLSTM-CRF模型主要由Embedding層(主要有詞向量,字向量以及一些額外特徵),雙向LSTM層,以及最後的CRF層構成。實驗結果表明biLSTM-CRF已經達到或者超過了基於豐富特徵的CRF模型,成爲目前基於深度學習的NER方法中的最主流模型。在特徵方面,該模型繼承了深度學習方法的優勢,無需特徵工程,使用詞向量以及字符向量就可以達到很好的效果,如果有高質量的詞典特徵,能夠進一步獲得提高。

BiLSTM-CRF結構示意圖

 

四、總結

       將神經網絡與CRF模型相結合的CNN/RNN-CRF成爲了目前NER的主流模型。對於CNN與RNN,並沒有誰佔據絕對優勢,各有各的優點。由於RNN有天然的序列結構,所以RNN-CRF使用更爲廣泛。基於神經網絡結構的NER方法,繼承了深度學習方法的優點,無需大量人工特徵。只需詞向量和字向量就能達到主流水平,加入高質量的詞典特徵能夠進一步提升效果。對於少量標註訓練集問題,遷移學習,半監督學習應該是未來研究的重點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章