Neural Relation Extraction（神經關係抽取）的兩篇文章

文章一

《Neural Relation Extraction with Selective Attention over Instances》

該論文中提到的Distant supervised是一種弱監督形式，作用是在Relation Extraction中可以從未標註的Knowledge Bases（KBs）語料中自動生成訓練數據，定義由 (Mintz et al., 2009) 提出，distant supervised假設如果兩個entity在KBs中存在某一關係，那麼KBs中所有包含這兩個entity的sentence都會表達這一關係。當然這樣的假設是錯誤的，或者說是不完全正確的，所以在這個過程中自動生成的訓練數據會存在噪音。爲了解決這個問題，後來有人通過multi-instance來緩解了噪音。然而這種傳統方法的最大弊端是大部分的features是由NLP工具（eg：POS tagging）獲得，這種NLP工具產生的錯誤會在這些傳統方法中擴算。再後來，人們提出在關係分類中使用neural net來代替手動特徵選取，但是這些方法需要人工標記的sentence-level數據作爲訓練集，無法應用KBs。
最後 (Zeng et al., 2015) 提出了基於muti-instance的neural net模型，該模型通過distant supervision數據來建立一個關係抽取器。該模型在訓練和預測時，假設在包含這兩個entity的sentences中，至少會有一條包含這兩個entity的relation，從而從中選取概率最大的那條作爲訓練或預測。該方法取得了不錯的效果，然這種選取最大概率的方法也丟失了大量了信息（沒有充分利用所有包含這兩個entity的sentences）。如何利用所有包含這兩個entity的sentences呢？論文使用了sentence-level的attention機制。
引用兩點總結：
karis：（1）網絡結構上： sentence Encoder：詞的嵌入和相對實體位置的嵌入，然後利用CNN得到關係的向量表示； Selective Attention: 計算包含實體的所有有效句子並計算句子權重，以此來降低錯誤標註句子帶來的影響。（2）學習算法上：交叉熵、SGD，優化的目標是逼近計算句子集合所表達的主要關係類型。（3）與（Zeng et al., 2015, Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks）的不同在於：後者僅僅在包含實體對的最有可能的一個句子上進行訓練，未充分利用語料。
LeoZhao：基本思路： distant supervision: 包含實體對的句子都表達了實體之間的specific關係。 1. 解決標記樣本的缺乏 >+ 引入 distant supervision, [Mintz et al., 2009] 1. 解決傳統單向方法的誤差積累問題 >+ 使用 CNN去學習句子的語義(與實體的距離 + embedding本身蘊含的 semantic similarity), 拋棄原有的POS等傳統方法。而第二步的 RE誤差可以傳導回來從而調整這一部分學習到的句子語義。 >+ 本文采用的是static vector representation, 並不是類似 not-static vector representation [Convolutional neural networks for sentence classification (2014), Y. Kim] 1. 解決錯誤標記樣本誤導 distant supervision >+ 正向樣本表達了 specific關係, [Zeng et al., 2015]只使用at least one sentence。 >+ 負向樣本不包含 specific關係, 利用sentence-level attention的特性來充分學習這部分特徵。
開源代碼：
https://github.com/thunlp/NRE 這個是本文的TF代碼。 https://github.com/thunlp/TensorFlow-NRE 這個包括了16年RC和RE兩個工作。

思考：現在有很多文章是通過知識圖譜向量來增強表示學習能力，那麼nlp任務是不是也可以加入知識圖譜來增加知識表示的語義信息，來達到一個相輔相成的作用？
http://aclweb.org/anthology/N15-1086 由一篇通過對話構建KG的。將KG用到NLP任務中，可以用KG的embeding形式。
https://github.com/thunlp/KB2E 試過用user, item的embedding來表徵相似度做推薦系統的。

文章二

**《Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions》

我的理解：
簡述下我對該模型理解和一點疑惑，該模型主要分三部分，APCNN（算是sentence的embedding層），Sentence-level Attention（帶有attention機制的分類層）和 Entity Description（描述語句的embedding層）。作者將關係提取作爲分類處理，那麼應該會有幾個候選的關係類別對應了softmax。將bag中的sentences通過APCNN（embedding）處理後轉換成對應的vector，並通過attention機制進行softmax分類，這裏訓練的目標是使分類的準確率最大化。後面附加的Entity Description模型我不太理解，其中訓練使Description vector和Entity vector儘可能接近我沒疑問，但使這樣的訓練附加到前面分類模型的訓練中就會使效果更好嗎？感覺上面的分類模型和Description模型是相互獨立的，即使後面公式看到他們兩個進行訓練目標的整合，也感覺不到Description的訓練會對分類的準確率產生什麼影響啊。想知道作者是怎麼考慮將這兩個訓練目標進行相加整合的？

我的疑問：
Figure2中的（a）部分，
（1）每個word對應了兩個position embeddings，這兩個embedding怎麼處理？是將兩個位置vector計算成一個vector還是兩個vector級聯？
（2）postion vector是怎麼計算的？在訓練時，是不是我們要先確定e1和e2，再計算word分別到e1和e2的距離d1和d2，那我們怎麼根據d1和d2來確定對應的位置vector呢？對應的vector是隨機初始化還是和其長度大小有關係？

Neural Relation Extraction（神經關係抽取）的兩篇文章

文章一

文章二

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

隨機網絡-無標度網絡（帶連接偏好的增長網絡模型）-(3)

Spark MLlib源碼分析—TFIDF源碼詳解

隨機網絡-概述與E-R模型-(1)

隨機網絡-小世界網絡（小世界網絡的協同動力學）概述-(2)

粗糙集，鄰域粗糙集與實域粗糙集概述

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結