Reliability-aware Dynamic Feature Composition for Name Tagging [ACL 2019] 閱讀筆記

論文題目:Reliability-aware Dynamic Feature Composition for Name Tagging
論文出處:ACL 2019
論文地址:http://nlp.cs.rpi.edu/paper/featurecomposition2019.pdf
源碼:https://github.com/limteng-rpi/neural_name_tagging

論文概述

論文題目是 用於專名識別(命名實體識別,NER)的可靠性感知的動態特徵組合。論文設計了一組基於字頻率的可靠性信號,以指示每個詞向量的質量。在可靠性信號的指導下,該模型能夠使用門控機制動態選擇和組合諸如詞向量和字符級表示之類的特徵。例如,如果輸入單詞爲罕見詞 / 稀有詞,則模型較少依賴於其詞嵌入,併爲其字符和上下文特徵分配較高權重。

論文要點

1. Reliability Signals

在這裏插入圖片描述
可靠性信號的組成是這篇論文的重點,主要包括兩部分 詞嵌入訓練文本內的詞頻分佈 以及 NER任務訓練集的詞頻分佈。
文章進行了一些處理,如將詞頻進行規範化處理,避免分佈範圍跨度過大的問題,另外設定一組詞頻閾值,引入一些二值信號。
如下面公式所示:
在這裏插入圖片描述

2.Dynamic Feature Composition

動態特徵組合體現在兩個部分: 詞表示級別以及特徵提取級別。

Word Representation Level

在這裏插入圖片描述
在這裏插入圖片描述
如圖所示,這篇論文的word representation 的獲取方式是:
首先, 字符嵌入經過卷積層,pooling層,FC層後,基於門控機制和依賴信號,與詞嵌入進行結合(表示1)。
字符嵌入經過另外的卷積層,pooling層,FC層後,直接與上述表示1部分進行級聯。
這裏實際對詞嵌入和字符嵌入都單獨設置了一個門控機制,而不是基於兩者概率加和爲1的假設,文中解釋是詞嵌入和字符嵌入的信息並不總是 exclusive(獨有、專一的)。

Feature Extraction Level

以下爲特徵提取階段示意圖,爲了便於觀察,文中只繪製了前向的提取過程,後向同理
在這裏插入圖片描述
在特徵提取級別,使用LSTM作爲提取器。文中對當前詞狀態與上下文狀態/信息 分隔開。
對上下文信息進行了編碼:
在這裏插入圖片描述
同樣基於門控機制和可靠性信號來控制對當前詞信息和上下文信息的依賴程度(可理解爲權重分佈)。
最終的 狀態編碼/特徵表示 如下:

在這裏插入圖片描述
在此基礎上通過常見的線性層等來做下游任務。

論文總結

以下僅代表個人觀點。
1.這篇文章的主要創新是引入了可靠性信號,其實就是 詞 在詞向量訓練文本和任務訓練文本中的詞頻分佈。基本想法是如何詞出現次數較少,它的詞向量不可靠,應該更多的依賴上下文信息,反之,如果詞出現頻率較高,則詞向量相對可靠。
2.可靠性信號在兩個層面體現作用,即在詞表示階段 以及 特徵提取階段 。
3. 在只允許使用字嵌入和詞嵌入中的一種時,字嵌入在NER任務中表現更好,但是 單純使用字嵌入會損失詞嵌入中蘊含的豐富的語料信息。近期的NER模型傾向於同時利用字嵌入和詞嵌入信息。
ps:本篇論文是基於英文NER任務,其字符嵌入與中文的字符嵌入還是有區別的,可以參考思路。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章