利用詞典進行命名實體

1.本文提供了只需要提供字典的情況下,實施NER任務,並對進行了標註數據的對比試驗。

2.使用未標記數據和命名實體字典來執行NER的方法。作者將任務表示爲正未標記(PU, Positive-Unlabeled)學習問題,並由此提出一種PU學習算法來執行該任務。該方法的一個關鍵特徵是它不需要字典標記句子中的每個實體,甚至不要求字典標記構成實體的所有單詞,這大大降低了對字典質量的要求。文章最後對四個公共NER數據集的實驗研究,證明了使用PU算法進行學習如同使用完全標記的數據進行監督學習一樣,能夠無偏差地且一致地估計任務損失。

3.因爲字典不能夠保證包含句子中所有的實體單詞,所以本文並沒有使用傳統的BIO或者BIOES標註模式,而是把標註問題轉化爲二分類問題進行處理。實體單詞被映射到正類,非實體單詞被映射到負類。

4.上下文無關的詞語表示包含三部分的特徵,分別是字符級別表示ec(w) ,詞級別表示ew(w) 和人工設計的特徵eh(w) 。 作者使用單層卷積神經網絡模型對字符嵌入序列進行處理,得到字符序列表示ec(w) 。之後,作者使用經過微調的GloVe詞嵌入表示作爲詞級別表示ew(w) 。最後,作者定義了一個指示符,以消除大小寫產生的問題。作者使用allCaps, upperInitial, lowercase, maxedCaps, noinfo五個特徵來對指示符進行處理,如果任一特徵被激活,則將指示符置爲1,否則爲0,然後將這三部分特徵串聯起來(concatenate)作爲詞語表示,

5.經過訓練的PU分類器可以用來進行標籤預測。因爲每個實體類型有着不同的分類器,所以同一個實體單詞可能被分類爲不同的正類。所以作者選取概率最大的正類作爲該單詞的類別,同時其他類型分類器的預測歸零。解決正類衝突之後,作者使用最大匹配的原則對連續實體單詞進行分類,得到最終的實體單詞標籤預測。

6.在PU學習中,作者使用已標記的正數據經驗風險去估計正數據的期望風險。這要求正數據xpi x_i^px 
ip與分佈P(X|Y=1)相互獨立。對於一個很小的字典來說,這個要求很難達到,所以作者使用了AdaSampling的方法進行詞典擴充。此方法爲不斷迭代PU學習算法,並把每一次標註出的結果加入到字典中,直到字典的大小不在變化

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章