命名實體識別《Named Entity Recognition using an HMM-based Chunk Tagger》

Motivation

命名實體識別(NER)是識別文本中基於特定意義的實體,例如人名、地名、機構名等。因爲命名實體是信息抽取的關鍵步驟,而目前大多數的方法都是人爲構造特徵例如構造正則表達式。這種基於規則的NER方法只能用於某一種特定語言,其魯棒性和遷移性較差。因此本文提出一種基於HMM的機器學習方法實現命名實體識別。

 

核心思想:

隱馬爾可夫模型經常用於標註問題,這時狀態對應着標記,標註問題是給定觀測的序列預測其對應的標記序列。NER對應的數學公式表達爲:

(1)

其中,是標記序列,也就是我們最終想獲得的輸出;,是觀測序列即輸入。爲了簡化計算,假設每個標記之間是獨立的,所以第二項可化爲:

(2)

將(2)帶入(1)得最終要最大化的目標表達式:

(3)

 

具體步驟:

1、訓練:根據訓練數據,使用back-off model訓練一個HMM模型。輸入:每個單詞及其特徵,例如g1=<MonthDATE, july>。輸出:邊界標籤,實體類別和單詞特徵,例如t1=<0, DATE, MonthDATE >。訓練之後,得到隱馬爾可夫模型

                                                                       

A,B,C分別爲狀態轉移矩陣、觀測轉移矩陣和初始狀態概率向量。(具體怎麼使用back-off model更新參數還不太清楚)

2、測試:利用維特比算法,生成命名實體識別的結果。

 

實驗結果:

模型實現的效果:

                                  

  1. f1: 詞語的簡單確定性的內在特徵,如大寫、數字;
  2. f2 : 重要triggers的內部語義特徵;
  3. f3: 地名特徵.;
  4. f4: 是關於遇到的NE是否以及如何出現在文檔中已經識別的NEs列表中

--以上四種特徵具體模式可以參考論文原文。

本方法和其他模型的比較:

          

 

啓發:

  1. 利用HMM進行NER往往會遇到數據稀疏問題,因此如何解決數據稀疏問題對模型的表現力至關重要;
  2. 一段文本中,同一個NE在第一次用到時可能比較正式,在後面的使用可能會簡化(Gates和Bill Gates),這叫做name alias,設計有效的name alias算法也會提高模型的效果。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章