自然語言學習13-基於 CRF 的中文命名實體識別模型實現

常見的命名實體識別方法

命名實體是命名實體識別的研究主體,一般包括三大類(實體類、時間類和數字類)和七小類(人名、地名、機構名、時間、日期、貨幣和百分比)命名實體。評判一個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確和實體的類型是否標註正確。

命名實體識別的主要技術方法分爲:基於規則和詞典的方法、基於統計的方法、二者混合的方法等。

1.基於規則和詞典的方法。

基於規則的方法多采用語言學專家手工構造規則模板,選用特徵包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配爲主要手段,這類系統大多依賴於知識庫和詞典的建立。基於規則和詞典的方法是命名實體識別中最早使用的方法,一般而言,當提取的規則能比較精確地反映語言現象時,基於規則的方法性能要優於基於統計的方法。但是這些規則往往依賴於具體語言、領域和文本風格,編制過程耗時且難以涵蓋所有的語言現象,特別容易產生錯誤,系統可移植性不好,對於不同的系統需要語言學專家重新書寫規則。基於規則的方法的另外一個缺點是代價太大,存在系統建設週期長、移植性差而且需要建立不同領域知識庫作爲輔助以提高系統識別能力等問題。

2.基於統計的方法。

基於統計機器學習的方法主要包括隱馬爾可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量機(Support VectorMachine,SVM)、條件隨機場(ConditionalRandom Fields,CRF)等。

在基於統計的這四種學習方法中,最大熵模型結構緊湊,具有較好的通用性,主要缺點是訓練時間長複雜性高,有時甚至導致訓練代價難以承受,另外由於需要明確的歸一化計算,導致開銷比較大。而條件隨機場爲命名實體識別提供了一個特徵靈活、全局最優的標註框架,但同時存在收斂速度慢、訓練時間長的問題。一般說來,最大熵和支持向量機在正確率上要比隱馬爾可夫模型高一些,但隱馬爾可夫模型在訓練和識別時的速度要快一些,主要是由於在利用 Viterbi 算法求解命名實體類別序列時的效率較高。隱馬爾可夫模型更適用於一些對實時性有要求以及像信息檢索這樣需要處理大量文本的應用,如短文本命名實體識別。

基於統計的方法對特徵選取的要求較高,需要從文本中選擇對該項任務有影響的各種特徵,並將這些特徵加入到特徵向量中。依據特定命名實體識別所面臨的主要困難和所表現出的特性,考慮選擇能有效反映該類實體特性的特徵集合。主要做法是通過對訓練語料所包含的語言信息進行統計和分析,從訓練語料中挖掘出特徵。有關特徵可以分爲具體的單詞特徵、上下文特徵、詞典及詞性特徵、停用詞特徵、核心詞特徵以及語義特徵等。

基於統計的方法對語料庫的依賴也比較大,而可以用來建設和評估命名實體識別系統的大規模通用語料庫又比較少。

3.混合方法。

自然語言處理並不完全是一個隨機過程,單獨使用基於統計的方法使狀態搜索空間非常龐大,必須藉助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法:

  1. 統計學習方法之間或內部層疊融合。
  2. 規則、詞典和機器學習方法之間的融合,其核心是融合方法技術。在基於統計的學習方法中引入部分規則,將機器學習和人工知識結合起來。
  3. 將各類模型、算法結合起來,將前一級模型的結果作爲下一級的訓練數據,並用這些訓練數據對模型進行訓練,得到下一級模型。

命名實體識別的一般流程

如下圖所示,一般的命名實體流程主要分爲四個步驟:

  1. 對需要進行提取的文本語料進行分詞;
  2. 獲取需要識別的領域標籤,並對分詞結果進行標籤標註;
  3. 對標籤標註的分詞進行抽取;
  4. 將抽取的分詞組成需要的領域的命名實體。

 

條件隨機場(CRF)

條件隨機場(Conditional Random Fields,簡稱 CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分佈模型。

隨機場是由若干個位置組成的整體,當按照某種分佈給每一個位置隨機賦予一個值之後,其全體就叫做隨機場。

假如我們有一個十個詞形成的句子需要做詞性標註。這十個詞每個詞的詞性可以在我們已知的詞性集合(名詞,動詞……)中去選擇。當我們爲每個詞選擇完詞性後,這就形成了一個隨機場。

馬爾科夫隨機場是隨機場的特例,它假設隨機場中某一個位置的賦值僅僅與和它相鄰的位置的賦值有關,和與其不相鄰的位置的賦值無關。

如果假設所有詞的詞性只和它相鄰的詞的詞性有關時,這個隨機場就特化成一個馬爾科夫隨機場。比如第三個詞的詞性除了與自己本身的位置有關外,還只與第二個詞和第四個詞的詞性有關。CRF 是馬爾科夫隨機場的特例,它假設馬爾科夫隨機場中只有 X 和 Y 兩種變量,X 一般是給定的,而 Y 一般是在給定 X 的條件下的輸出。這樣馬爾科夫隨機場就特化成了條件隨機場。

在十個詞的句子詞性標註的例子中,X 是詞,Y 是詞性。因此,如果我們假設它是一個馬爾科夫隨機場,那麼它也就是一個 CRF。

對於 CRF,準確的數學語言描述:設 X 與 Y 是隨機變量,P(Y|X) 是給定 X 時 Y 的條件概率分佈,若隨機變量 Y 構成的是一個馬爾科夫隨機場,則稱條件概率分佈 P(Y|X) 是條件隨機場。

基於 CRF 的中文命名實體識別模型實現

在常規的命名實體識別中,通用場景下最常提取的是時間、人物、地點及組織機構名,因此本模型也將提取以上四種實體。

數據預處理

本模型使用人民日報1998年標註數據,進行預處理。語料庫詞性標記中,對應的實體詞依次爲 t、nr、ns、nt。對語料需要做以下處理:

  • 將語料全角字符統一轉爲半角;
  • 合併語料庫分開標註的姓和名,例如:溫/nr 家寶/nr
  • 合併語料庫中括號中的大粒度詞,例如:[國家/n 環保局/n]nt
  • 合併語料庫分開標註的時間,例如:(/w 一九九七年/t 十二月/t 三十一日/t )/w

首先引入需要用到的庫:

    import re
    import sklearn_crfsuite
    from sklearn_crfsuite import metrics
    from sklearn.externals import joblib

error

數據預處理,定義 CorpusProcess 類,類實現框架:

class CorpusProcess(object):

    def __init__(self):
        """初始化"""
        pass

    def read_corpus_from_file(self, file_path):
        """讀取語料"""
        pass

    def write_corpus_to_file(self, data, file_path):
        """寫語料"""
        pass

    def q_to_b(self,q_str):
        """全角轉半角"""
        pass

    def b_to_q(self,b_str):
        """半角轉全角"""
        pass

    def pre_process(self):
        """語料預處理 """
        pass

    def process_k(self, words):
        """處理大粒度分詞,合併語料庫中括號中的大粒度分詞,類似:[國家/n  環保局/n]nt """
        pass

    def process_nr(self, words):
        """ 處理姓名,合併語料庫分開標註的姓和名,類似:溫/nr  家寶/nr"""
        pass

    def process_t(self, words):
        """處理時間,合併語料庫分開標註的時間詞,類似: (/w  一九九七年/t  十二月/t  三十一日/t  )/w   """
        pass

    def pos_to_tag(self, p):
        """由詞性提取標籤"""
        pass

    def tag_perform(self, tag, index):
        """標籤使用BIO模式"""
        pass

    def pos_perform(self, pos):
        """去除詞性攜帶的標籤先驗知識"""
        pass

    def initialize(self):
        """初始化 """
        pass

    def init_sequence(self, words_list):
        """初始化字序列、詞性序列、標記序列 """
        pass

    def extract_feature(self, word_grams):
        """特徵選取"""
        pass

    def segment_by_window(self, words_list=None, window=3):
        """窗口切分"""
        pass

    def generator(self):
        """訓練數據"""
        pass

對語料中的句子、詞性,實體分類標記進行區分。標籤採用“BIO”體系,即實體的第一個字爲 B_*,其餘字爲 I_*,非實體字統一標記爲 O。大部分情況下,標籤體系越複雜,準確度也越高,這裏模型採用 tri-gram 形式,所以在字符列中,要在句子前後加上佔位符。

def init_sequence(self, words_list):
            """初始化字序列、詞性序列、標記序列 """
            words_seq = [[word.split(u'/')[0] for word in words] for words in words_list]
            pos_seq = [[word.split(u'/')[1] for word in words] for words in words_list]
            tag_seq = [[self.pos_to_tag(p) for p in pos] for pos in pos_seq]
            self.pos_seq = [[[pos_seq[index][i] for _ in range(len(words_seq[index][i]))]
                            for i in range(len(pos_seq[index]))] for index in range(len(pos_seq))]
            self.tag_seq = [[[self.tag_perform(tag_seq[index][i], w) for w in range(len(words_seq[index][i]))]
                            for i in range(len(tag_seq[index]))] for index in range(len(tag_seq))]
            self.pos_seq = [[u'un']+[self.pos_perform(p) for pos in pos_seq for p in pos]+[u'un'] for pos_seq in self.pos_seq]
            self.tag_seq = [[t for tag in tag_seq for t in tag] for tag_seq in self.tag_seq]
            self.word_seq = [[u'<BOS>']+[w for word in word_seq for w in word]+[u'<EOS>'] for word_seq in words_seq] 

處理好語料之後,緊接着進行模型定義和訓練,定義 CRF_NER 類

    class CRF_NER(object):
        def __init__(self):
            """初始化參數"""
            pass

        def initialize_model(self):
            """初始化"""
            pass

        def train(self):
            """訓練"""
            pass

        def predict(self, sentence):
            """預測"""
            pass
        def load_model(self):
            """加載模型 """
            pass
        def save_model(self):
            """保存模型"""
            pass

在 CRF_NER 類中,分別完成了語料預處理和模型訓練、保存、預測功能,具體實現如下。

第一步,init 函數實現了模型參數定義和 CorpusProcess 的實例化和語料預處理:

    def __init__(self):
            """初始化參數"""
            self.algorithm = "lbfgs"
            self.c1 ="0.1"
            self.c2 = "0.1"
            self.max_iterations = 100 #迭代次數
            self.model_path = dir + "model.pkl"
            self.corpus = CorpusProcess()  #Corpus 實例
            self.corpus.pre_process()  #語料預處理
            self.corpus.initialize()  #初始化語料
            self.model = None

第二步,給出模型定義

    def initialize_model(self):
            """初始化"""
            algorithm = self.algorithm
            c1 = float(self.c1)
            c2 = float(self.c2)
            max_iterations = int(self.max_iterations)
            self.model = sklearn_crfsuite.CRF(algorithm=algorithm, c1=c1, c2=c2,
                                              max_iterations=max_iterations, all_possible_transitions=True)

第三步,模型訓練和保存,分爲訓練集和測試集:

    def train(self):
            """訓練"""
            self.initialize_model()
            x, y = self.corpus.generator()
            x_train, y_train = x[500:], y[500:]
            x_test, y_test = x[:500], y[:500]
            self.model.fit(x_train, y_train)
            labels = list(self.model.classes_)
            labels.remove('O')
            y_predict = self.model.predict(x_test)
            metrics.flat_f1_score(y_test, y_predict, average='weighted', labels=labels)
            sorted_labels = sorted(labels, key=lambda name: (name[1:], name[0]))
            print(metrics.flat_classification_report(y_test, y_predict, labels=sorted_labels, digits=3))
            self.save_model()

模型訓練和預測的過程和結果:

    ner = CRF_NER()
    model = ner.train()

經過模型訓練,得到的準確率和召回率如下:

enter image description here

進行模型預測

enter image description here

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章