Motivation:
命名實體識別(NER)是識別文本中基於特定意義的實體,例如人名、地名、機構名等。因爲命名實體是信息抽取的關鍵步驟,而目前大多數的方法都是人爲構造特徵例如構造正則表達式。這種基於規則的NER方法只能用於某一種特定語言,其魯棒性和遷移性較差。因此本文提出一種基於HMM的機器學習方法實現命名實體識別。
核心思想:
隱馬爾可夫模型經常用於標註問題,這時狀態對應着標記,標註問題是給定觀測的序列預測其對應的標記序列。NER對應的數學公式表達爲:
(1)
其中,是標記序列,也就是我們最終想獲得的輸出;,是觀測序列即輸入。爲了簡化計算,假設每個標記之間是獨立的,所以第二項可化爲:
(2)
將(2)帶入(1)得最終要最大化的目標表達式:
(3)
具體步驟:
1、訓練:根據訓練數據,使用back-off model訓練一個HMM模型。輸入:每個單詞及其特徵,例如g1=<MonthDATE, july>。輸出:邊界標籤,實體類別和單詞特徵,例如t1=<0, DATE, MonthDATE >。訓練之後,得到隱馬爾可夫模型
A,B,C分別爲狀態轉移矩陣、觀測轉移矩陣和初始狀態概率向量。(具體怎麼使用back-off model更新參數還不太清楚)
2、測試:利用維特比算法,生成命名實體識別的結果。
實驗結果:
模型實現的效果:
- f1: 詞語的簡單確定性的內在特徵,如大寫、數字;
- f2 : 重要triggers的內部語義特徵;
- f3: 地名特徵.;
- f4: 是關於遇到的NE是否以及如何出現在文檔中已經識別的NEs列表中
--以上四種特徵具體模式可以參考論文原文。
本方法和其他模型的比較:
啓發:
- 利用HMM進行NER往往會遇到數據稀疏問題,因此如何解決數據稀疏問題對模型的表現力至關重要;
- 一段文本中,同一個NE在第一次用到時可能比較正式,在後面的使用可能會簡化(Gates和Bill Gates),這叫做name alias,設計有效的name alias算法也會提高模型的效果。