命名實體識別《Named Entity Recognition using an HMM-based Chunk Tagger》

原創

2019-10-25 22:48

Motivation：

命名實體識別（NER）是識別文本中基於特定意義的實體，例如人名、地名、機構名等。因爲命名實體是信息抽取的關鍵步驟，而目前大多數的方法都是人爲構造特徵例如構造正則表達式。這種基於規則的NER方法只能用於某一種特定語言，其魯棒性和遷移性較差。因此本文提出一種基於HMM的機器學習方法實現命名實體識別。

核心思想：

隱馬爾可夫模型經常用於標註問題，這時狀態對應着標記，標註問題是給定觀測的序列預測其對應的標記序列。NER對應的數學公式表達爲：

（1）

其中，是標記序列，也就是我們最終想獲得的輸出；，是觀測序列即輸入。爲了簡化計算，假設每個標記之間是獨立的，所以第二項可化爲：

（2）

將（2）帶入（1）得最終要最大化的目標表達式：

（3）

具體步驟:

1、訓練：根據訓練數據，使用back-off model訓練一個HMM模型。輸入：每個單詞及其特徵，例如g1=<MonthDATE, july>。輸出：邊界標籤，實體類別和單詞特徵，例如t1=<0, DATE, MonthDATE >。訓練之後，得到隱馬爾可夫模型

A,B,C分別爲狀態轉移矩陣、觀測轉移矩陣和初始狀態概率向量。（具體怎麼使用back-off model更新參數還不太清楚）

2、測試：利用維特比算法，生成命名實體識別的結果。

實驗結果：

模型實現的效果：

--以上四種特徵具體模式可以參考論文原文。

本方法和其他模型的比較：

啓發：

利用HMM進行NER往往會遇到數據稀疏問題，因此如何解決數據稀疏問題對模型的表現力至關重要；
一段文本中，同一個NE在第一次用到時可能比較正式，在後面的使用可能會簡化（Gates和Bill Gates），這叫做name alias，設計有效的name alias算法也會提高模型的效果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.