一種融合指代消解序列標註方法在中文人名識別上的應用(下)

二、使用了BERT模型和指代消解算法:

  • 加入BERT語言預處理模型,獲取到高質量動態詞向量。

  • 融入指代消解算法,根據指代詞找出符合要求的子串/短語。

【2】融入指代消解算法,根據指代詞找出符合要求的子串/短語

image.png

  指代消解算法如圖2所示,簡單來說,就是考慮文檔中子串/短語以及學習子串/短語的可能指代。通過分詞器將句子y分割爲a~e五個字,將其作爲輸入傳給模型中的BiLSTM模塊,然後提取實體識別所需的特徵,進行注意力機制任務,將得到的結果進行拼接、剪枝處理,得到可能性最大的指代的子串/短語,進而優化目標。
  這裏的指代消解算法是在使用啓發式Max-Margin損失函數的基礎上,利用增強策略梯度算法工作的。每個行爲 a=(c,m) 的概率定義如公式(1)所示, 損失函數定義如公式(2)所示。

image.png

image.png

  爲使獲得獎勵值最大,採用梯度上升法進行參數更新,由於梯度值計算困難,現採用一種梯度估值,定義如公式(3)、(4),進行原文替換。
  調研發現,此處可以引入一個語義匹配層及網頁語義知識,來彌補知識庫不全覆蓋的問題。在此基礎上,本文找到一種基於小文本的BERT-NER的中文指代消解框架,它可以獲得更高的準確率和更好的效果,同時實現主語補齊的功能,功能實現如圖3所示。

image.png

  由於數據中包含人名指代詞的文本在海量數據中佔比較少,所以本文可進行小文本的模型訓練。加入指代消解算法後,將消解前後的輿情公告數據文本進行比較,測驗效果見圖4。

image.png

【3】融入的指代消解算法,比加入外部語料和字符級特徵更通用有效

  當下與本文類似的提高人名識別效率的研究中,多特徵BiLSTM-CRF模型(後續簡寫爲多特徵模型)識別方法具有代表性,該模型改善了影評中稱謂不明等問題,在電影行業上取得了顯著效果。
  本文爲了體現融合指代消解的序列標註方法更勝一籌,利用人民日報數據集和上市公告數據集,比較融合指代消解的序列標註的方法和加入外部人名語料和特定字符級特徵的序列標註的方法,得出融入指代消解的人名識別方法要比加入外部人名語料和特定字符級特徵的模型的效果更好。
  所以在一般情況下,融合指代消解的序列標註方法會比其他形式,諸如加入外部人名語料和特定字符級特徵的序列標註方法更能改進人名識別的準確率。
  在公共數據集和輿情公告數據集上,融合指代消解的序列標註方法和加入外部人名語料和特定字符級特徵方法的比較,前者效果更好。

總結

本文提出的融合指代消解序列標註方法,在以下四個方面有較強的創新性

  • 數據預處理階段,根據職務變更等有效信息進行數據增強

  • 加入BERT語言預處理模型,獲取到高質量動態詞向量

  • 融入指代消解算法,根據指代詞找出符合要求的子串/短語

  • 融入的指代消解算法,比加入外部語料和字符級特徵更通用有效

該算法未來將拓展至機構名、地名以及其他所有以名稱爲標識的實體,能更好的服務於京東小程序客戶體驗中的寄收件地址的文本識別中,提高相關識別的準確率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章