命名實體識別《Neural Architectures for Named Entity Recognition》

Motivation

目前在命名實體識別任務上表現最好的模型都嚴重依賴於人工構造的特徵(基於規則),因爲關於NER任務的語料很少,通過神經網絡難以訓練一個合適的模型,所以很多人提出在使用監督+無監督的語料提升模型的表現。本文提出兩種神經網絡結構且僅僅使用有限的監督數據實現了state-of-the-art performance。

 

模型結構:

本文提出兩種模型,LSTM-CRF和Stack LSTM:

  1. LSTM-CRF:源序列(一段文本)輸入到BiLSTM中,然後輸出一個單詞的考慮到上下文的特徵表示ht。然後ht輸入到CRF中,因爲CRF可以考慮全局依賴。以序列Mark Watney visited Mars爲例,輸出B-PER其中B代表一個實體的開始,PER代表實體類別(person)。

                                                

    2. Stack LSTM:源序列(一段文本)輸入到LSTM中,然後輸出每個單詞對於各種操作(SHIFT, REDUCE(y), OUT)的概率分佈。通過貪心算法選擇一個序列最有可能的操作,根據操作對源序列進行標註。例子同上:

            

 

模型的輸入:

單詞的特徵表示對模型的表現有着非常重要的影響,本文使用詞嵌入結合預訓練的特徵和基於字符的特徵。

  • 字符增強表達詞嵌入,也就是說一些單詞存在着前綴或者後綴,比如-ly這種後綴很可能是一個副詞,這樣我們就能夠在字符水平上對詞性進行進一步判斷。
  • 預訓練的詞嵌入,F1可以提高7.31。

單純使用字符級別的特徵表示和預訓練的詞嵌入沒能提高模型整體表現效果,在使用dropout兼顧兩種特徵表示後能提高模型的準確率。

 

實驗結果:

使用SGD更新參數,設置梯度裁剪參數爲5。下表表明了不同變體對兩個模型的貢獻率。

                                                                     

Char:是否對一個單詞的各個字符進行embedding,pretrain:是否使用預訓練的詞向量。可以發現使用pretrain對模型的表現貢獻最大。

LSTM-CRF比S-LSTM效果好,S-LSTM更依賴於單詞的字符特徵。

啓發:

  1. 對於序列標註任務,CRF能夠考慮全局範圍內的狀態轉移概率;
  2. 使用預訓練的詞向量能夠顯著提高模型效果;
  3. Dropout可以調節兩種特徵表示的比例。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章