Neural Relation Extraction(神經關係抽取)的兩篇文章

文章一

《Neural Relation Extraction with Selective Attention over Instances》

這裏寫圖片描述

這裏寫圖片描述
該論文中提到的Distant supervised是一種弱監督形式,作用是在Relation Extraction中可以從未標註的Knowledge Bases(KBs)語料中自動生成訓練數據,定義由 (Mintz et al., 2009) 提出,distant supervised假設如果兩個entity在KBs中存在某一關係,那麼KBs中所有包含這兩個entity的sentence都會表達這一關係。當然這樣的假設是錯誤的,或者說是不完全正確的,所以在這個過程中自動生成的訓練數據會存在噪音。爲了解決這個問題,後來有人通過multi-instance來緩解了噪音。然而這種傳統方法的最大弊端是大部分的features是由NLP工具(eg:POS tagging)獲得,這種NLP工具產生的錯誤會在這些傳統方法中擴算。再後來,人們提出在關係分類中使用neural net來代替手動特徵選取,但是這些方法需要人工標記的sentence-level數據作爲訓練集,無法應用KBs。
最後 (Zeng et al., 2015) 提出了基於muti-instance的neural net模型,該模型通過distant supervision數據來建立一個關係抽取器。該模型在訓練和預測時,假設在包含這兩個entity的sentences中,至少會有一條包含這兩個entity的relation,從而從中選取概率最大的那條作爲訓練或預測。該方法取得了不錯的效果,然這種選取最大概率的方法也丟失了大量了信息(沒有充分利用所有包含這兩個entity的sentences)。如何利用所有包含這兩個entity的sentences呢?論文使用了sentence-level的attention機制。
引用兩點總結:
karis:(1)網絡結構上: sentence Encoder:詞的嵌入和相對實體位置的嵌入,然後利用CNN得到關係的向量表示; Selective Attention: 計算包含實體的所有有效句子並計算句子權重,以此來降低錯誤標註句子帶來的影響。 (2)學習算法上:交叉熵、SGD,優化的目標是逼近計算句子集合所表達的主要關係類型。 (3)與(Zeng et al., 2015, Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks)的不同在於:後者僅僅在包含實體對的最有可能的一個句子上進行訓練,未充分利用語料。
LeoZhao:基本思路: distant supervision: 包含實體對的句子 都表達了 實體之間的specific關係。 1. 解決 標記樣本的缺乏 >+ 引入 distant supervision, [Mintz et al., 2009] 1. 解決 傳統單向方法的誤差積累問題 >+ 使用 CNN去學習 句子的語義(與實體的距離 + embedding本身蘊含的 semantic similarity), 拋棄原有的POS等傳統方法。 而 第二步的 RE誤差可以傳導回來 從而 調整這一部分學習到的句子語義。 >+ 本文采用的是static vector representation, 並不是類似 not-static vector representation [Convolutional neural networks for sentence classification (2014), Y. Kim] 1. 解決 錯誤標記樣本 誤導 distant supervision >+ 正向樣本 表達了 specific關係, [Zeng et al., 2015]只使用at least one sentence。 >+ 負向樣本 不包含 specific關係, 利用sentence-level attention的特性來充分學習這部分特徵。
開源代碼:
https://github.com/thunlp/NRE 這個是本文的TF代碼。 https://github.com/thunlp/TensorFlow-NRE 這個包括了16年RC和RE兩個工作。

思考:現在有很多文章是通過知識圖譜向量來增強表示學習能力,那麼nlp任務是不是也可以加入知識圖譜來增加知識表示的語義信息,來達到一個相輔相成的作用?
http://aclweb.org/anthology/N15-1086 由一篇通過對話構建KG的。 將KG用到NLP任務中,可以用KG的embeding形式。
https://github.com/thunlp/KB2E 試過用user, item的embedding來表徵 相似度 做 推薦系統的。

**

文章二

**《Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions》
這裏寫圖片描述

這裏寫圖片描述
我的理解:
簡述下我對該模型理解和一點疑惑,該模型主要分三部分,APCNN(算是sentence的embedding層),Sentence-level Attention(帶有attention機制的分類層)和 Entity Description(描述語句的embedding層)。作者將關係提取作爲分類處理,那麼應該會有幾個候選的關係類別對應了softmax。將bag中的sentences通過APCNN(embedding)處理後轉換成對應的vector,並通過attention機制進行softmax分類,這裏訓練的目標是使分類的準確率最大化。後面附加的Entity Description模型我不太理解,其中訓練使Description vector和Entity vector儘可能接近我沒疑問,但使這樣的訓練附加到前面分類模型的訓練中就會使效果更好嗎?感覺上面的分類模型和Description模型是相互獨立的,即使後面公式看到他們兩個進行訓練目標的整合,也感覺不到Description的訓練會對分類的準確率產生什麼影響啊。想知道作者是怎麼考慮將這兩個訓練目標進行相加整合的?

我的疑問:
Figure2中的(a)部分,
(1)每個word對應了兩個position embeddings,這兩個embedding怎麼處理?是將兩個位置vector計算成一個vector還是兩個vector級聯?
(2)postion vector是怎麼計算的?在訓練時,是不是我們要先確定e1和e2,再計算word分別到e1和e2的距離d1和d2,那我們怎麼根據d1和d2來確定對應的位置vector呢?對應的vector是隨機初始化還是和其長度大小有關係?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章