一種融合指代消解序列標註方法在中文人名識別上的應用（上）

原創

2024-04-17 11:18

技術領域

自然語言處理領域。

應用場景：

  適用於自然語言處理領域，通過命名實體識別（Named Entity Recognition，NER），準確識別實體。依託自然語言處理領域，基於人民日報數據及構造的輿情公告數據，提出一種融合指代消解的序列標註方法來改進人名識別。

解決的問題：

  實體包括人名、地名和組織名等，與其他實體相比，人名與職務、職務變更及人稱代詞有關。人名作爲衆多實體類別之一，常出現在信息資料庫、圖書館借閱登記表、期刊文章等場景中。但在人名的實體識別時，人名語料的殘缺及人稱指代不明等問題，會嚴重影響識別的準確度，成爲處理中的難點、痛點。

  基於人民日報數據及構造的輿情公告數據，提出一種融合指代消解的序列標註方法來改進人名識別。通過人民日報數據及構造的輿情公告數據，能有效緩解人名識別中人名語料不完善的問題；通過數據增強優化數據集，並對人稱代詞進行人稱消解，解決人稱代詞指代不明、有效數據佔比低等問題，提高人名提取的準確率。

系統方法說明

一、對數據進行數據增強：

利用爬蟲技術爬取到輿情公告文本數據。
利用分詞工具從海量文本中進行文本抽取，抽取出符合要求的單句文本。
針對職務變更詞和職務，設置自定義詞典，達到數據增強的效果。

數據預處理階段，根據職務變更等有效信息進行數據增強

  先利用爬蟲技術爬取到輿情公告文本數據，之後利用分詞工具從海量文本中進行文本抽取，抽取出符合要求的單句文本；再針對職務變更詞和職務，設置自定義詞典，達到數據增強的效果。

  首先，對文本數據進行清洗、分類，既可以減少噪聲干擾，又能保證後續數據增強的正確性。接着，對職務變更詞和職務進行細粒度區分，爲後續測驗鋪墊。不進行數據預處理，即直接在原文本上也可以進行中文人名識別，但這樣性能差。首先，對文本數據進行清洗、分類，既可以減少噪聲干擾，又能保證後續數據增強的正確性。接着，對職務變更詞和職務進行細粒度區分，爲後續測驗鋪墊。

  在分詞階段，使用Jieba分詞。雖然有的非全名字段，如“周先生”仍可成功識別，但是少許職務會被當作人名出現。爲了解決該問題，通過設置禁用詞表和自定義詞典，改進粗略目標文本數據，進而得到最終的精確目標文本數據。在獲得精確文本數據後，按照職務變更詞、職務進行提取，達到數據增強的作用。

二、使用了BERT模型和指代消解算法：

加入BERT語言預處理模型，獲取到高質量動態詞向量。
融入指代消解算法，根據指代詞找出符合要求的子串/短語。

【1】加入BERT語言預處理模型，獲取到高質量動態詞向量

  在使用BERT模型之前，有兩大模型訓練方式，一個是Word2Vec模型，它訓練出來的詞向量屬於靜態詞向量，無法表示一詞多義；另一個方法是使用GPT單向語言模型訓練的，無法獲取字的上下文信息，所以將單向的LSTM模塊改爲雙向的BiLSTM模塊，對單項GPT模型進行改進，變成雙向語言模型。僅僅利用雙向長短時記憶網絡與條件隨機場結合的方式，可以建模並標出序列的關係，但是無法動態表徵。

  BERT模塊主要進行“表示”作用，抽取豐富的文本特徵，得到batch_size*max_seq_len*emb_size的輸出向量。爲了更好的學習上下文特徵，加入BERT語言預處理模型，以Transformer結構爲核心，進行一詞多義並獲取詞的上下文信息，獲取到高質量動態詞向量。

  圖1整體流程可知，通過分詞器已經將句子x分割爲a~e五個字，將其作爲輸入傳給模型中BERT模塊做訓練處理，得到的輸出向量作爲模型中的BiLSTM模塊的輸入，進行特徵提取，得到輸出向量，將這五個向量作爲輸入，進入模型中的CRF層進行解碼，計算最優的標註序列，至此已經能夠有效地提高人名識別的準確率了。

【2】融入指代消解算法，根據指代詞找出符合要求的子串/短語

  該部分將在《一種融合指代消解序列標註方法在中文人名識別上的應用（下）》重點闡述。

【3】融入的指代消解算法，比加入外部語料和字符級特徵更通用有效

  該部分將在《一種融合指代消解序列標註方法在中文人名識別上的應用（下）》重點闡述。

該算法未來將拓展至機構名、地名以及其他所有以名稱爲標識的實體，能更好的服務於京東小程序客戶體驗中的寄收件地址的文本識別中，提高相關識別的準確率。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

一種融合指代消解序列標註方法在中文人名識別上的應用（上）

技術領域

應用場景：

解決的問題：

系統方法說明

一、對數據進行數據增強：

數據預處理階段，根據職務變更等有效信息進行數據增強

二、使用了BERT模型和指代消解算法：

【1】加入BERT語言預處理模型，獲取到高質量動態詞向量

【2】融入指代消解算法，根據指代詞找出符合要求的子串/短語

【3】融入的指代消解算法，比加入外部語料和字符級特徵更通用有效

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

今天，昨天，近七天，近30天，近90天，js封裝

validate 驗證

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

ArkTS開發原生鴻蒙HarmonyOS短視頻應用

安全策略增量加速之對象

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結