一種融合指代消解序列標註方法在中文人名識別上的應用(上)

技術領域

自然語言處理領域。

應用場景:

  適用於自然語言處理領域,通過命名實體識別(Named Entity Recognition,NER),準確識別實體。依託自然語言處理領域,基於人民日報數據及構造的輿情公告數據,提出一種融合指代消解的序列標註方法來改進人名識別。

解決的問題:

  實體包括人名、地名和組織名等,與其他實體相比,人名與職務、職務變更及人稱代詞有關。人名作爲衆多實體類別之一,常出現在信息資料庫、圖書館借閱登記表、期刊文章等場景中。但在人名的實體識別時,人名語料的殘缺及人稱指代不明等問題,會嚴重影響識別的準確度,成爲處理中的難點、痛點。

  基於人民日報數據及構造的輿情公告數據,提出一種融合指代消解的序列標註方法來改進人名識別。通過人民日報數據及構造的輿情公告數據,能有效緩解人名識別中人名語料不完善的問題;通過數據增強優化數據集,並對人稱代詞進行人稱消解,解決人稱代詞指代不明、有效數據佔比低等問題,提高人名提取的準確率。

系統方法說明

image.png

一、對數據進行數據增強:

  • 利用爬蟲技術爬取到輿情公告文本數據。

  • 利用分詞工具從海量文本中進行文本抽取,抽取出符合要求的單句文本。

  • 針對職務變更詞和職務,設置自定義詞典,達到數據增強的效果。

數據預處理階段,根據職務變更等有效信息進行數據增強

  先利用爬蟲技術爬取到輿情公告文本數據,之後利用分詞工具從海量文本中進行文本抽取,抽取出符合要求的單句文本;再針對職務變更詞和職務,設置自定義詞典,達到數據增強的效果。

  首先,對文本數據進行清洗、分類,既可以減少噪聲干擾,又能保證後續數據增強的正確性。接着,對職務變更詞和職務進行細粒度區分,爲後續測驗鋪墊。不進行數據預處理,即直接在原文本上也可以進行中文人名識別,但這樣性能差。首先,對文本數據進行清洗、分類,既可以減少噪聲干擾,又能保證後續數據增強的正確性。接着,對職務變更詞和職務進行細粒度區分,爲後續測驗鋪墊。

  在分詞階段,使用Jieba分詞。雖然有的非全名字段,如“周先生”仍可成功識別,但是少許職務會被當作人名出現。爲了解決該問題,通過設置禁用詞表和自定義詞典,改進粗略目標文本數據,進而得到最終的精確目標文本數據。在獲得精確文本數據後,按照職務變更詞、職務進行提取,達到數據增強的作用。

二、使用了BERT模型和指代消解算法:

  • 加入BERT語言預處理模型,獲取到高質量動態詞向量。

  • 融入指代消解算法,根據指代詞找出符合要求的子串/短語。

【1】加入BERT語言預處理模型,獲取到高質量動態詞向量

  在使用BERT模型之前,有兩大模型訓練方式,一個是Word2Vec模型,它訓練出來的詞向量屬於靜態詞向量,無法表示一詞多義;另一個方法是使用GPT單向語言模型訓練的,無法獲取字的上下文信息,所以將單向的LSTM模塊改爲雙向的BiLSTM模塊,對單項GPT模型進行改進,變成雙向語言模型。僅僅利用雙向長短時記憶網絡與條件隨機場結合的方式,可以建模並標出序列的關係,但是無法動態表徵。

  BERT模塊主要進行“表示”作用,抽取豐富的文本特徵,得到batch_size*max_seq_len*emb_size的輸出向量。爲了更好的學習上下文特徵,加入BERT語言預處理模型,以Transformer結構爲核心,進行一詞多義並獲取詞的上下文信息,獲取到高質量動態詞向量。

  圖1整體流程可知,通過分詞器已經將句子x分割爲a~e五個字,將其作爲輸入傳給模型中BERT模塊做訓練處理,得到的輸出向量作爲模型中的BiLSTM模塊的輸入,進行特徵提取,得到輸出向量,將這五個向量作爲輸入,進入模型中的CRF層進行解碼,計算最優的標註序列,至此已經能夠有效地提高人名識別的準確率了。

【2】融入指代消解算法,根據指代詞找出符合要求的子串/短語

  該部分將在《一種融合指代消解序列標註方法在中文人名識別上的應用(下)》重點闡述。

【3】融入的指代消解算法,比加入外部語料和字符級特徵更通用有效

  該部分將在《一種融合指代消解序列標註方法在中文人名識別上的應用(下)》重點闡述。

該算法未來將拓展至機構名、地名以及其他所有以名稱爲標識的實體,能更好的服務於京東小程序客戶體驗中的寄收件地址的文本識別中,提高相關識別的準確率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章