利用詞典進行命名實體

1.本文提供了只需要提供字典的情況下，實施NER任務，並對進行了標註數據的對比試驗。

2.使用未標記數據和命名實體字典來執行NER的方法。作者將任務表示爲正未標記（PU, Positive-Unlabeled）學習問題，並由此提出一種PU學習算法來執行該任務。該方法的一個關鍵特徵是它不需要字典標記句子中的每個實體，甚至不要求字典標記構成實體的所有單詞，這大大降低了對字典質量的要求。文章最後對四個公共NER數據集的實驗研究，證明了使用PU算法進行學習如同使用完全標記的數據進行監督學習一樣，能夠無偏差地且一致地估計任務損失。

3.因爲字典不能夠保證包含句子中所有的實體單詞，所以本文並沒有使用傳統的BIO或者BIOES標註模式，而是把標註問題轉化爲二分類問題進行處理。實體單詞被映射到正類，非實體單詞被映射到負類。

4.上下文無關的詞語表示包含三部分的特徵，分別是字符級別表示ec(w) ，詞級別表示ew(w) 和人工設計的特徵eh(w) 。作者使用單層卷積神經網絡模型對字符嵌入序列進行處理，得到字符序列表示ec(w) 。之後，作者使用經過微調的GloVe詞嵌入表示作爲詞級別表示ew(w) 。最後，作者定義了一個指示符，以消除大小寫產生的問題。作者使用allCaps, upperInitial, lowercase, maxedCaps, noinfo五個特徵來對指示符進行處理，如果任一特徵被激活，則將指示符置爲1，否則爲0，然後將這三部分特徵串聯起來(concatenate)作爲詞語表示，

5.經過訓練的PU分類器可以用來進行標籤預測。因爲每個實體類型有着不同的分類器，所以同一個實體單詞可能被分類爲不同的正類。所以作者選取概率最大的正類作爲該單詞的類別，同時其他類型分類器的預測歸零。解決正類衝突之後，作者使用最大匹配的原則對連續實體單詞進行分類，得到最終的實體單詞標籤預測。

6.在PU學習中，作者使用已標記的正數據經驗風險去估計正數據的期望風險。這要求正數據xpi x_i^px
ip與分佈P(X|Y=1)相互獨立。對於一個很小的字典來說，這個要求很難達到，所以作者使用了AdaSampling的方法進行詞典擴充。此方法爲不斷迭代PU學習算法，並把每一次標註出的結果加入到字典中，直到字典的大小不在變化

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

利用詞典進行命名實體

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

基於互信息與左右信息熵的新詞發現

wod清洗，docx

貝葉斯，SVM分類

QA問題總結

Transformer源碼分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結