論文來源：AAAI 2020
論文鏈接：https://arxiv.org/pdf/2001.02332.pdf

本文是發表在AAAI2020上的一篇基於生成對抗網絡進行知識圖譜零樣本關係學習的文章。在知識圖譜表示學習（KG Embedding）的相關工作中，會出現一些未在訓練數據集中出現過的關係（即 zero-shot relations），由於relation及其相關的三元組沒有在訓練數據集中出現過，則無法獲得該relation訓練好的向量表示，從而無法進行鏈接預測等下游任務。在這篇文章中，作者提出利用這些relations的文本描述信息以及生成對抗網絡，爲這些zero-shot relations學習到有語義意義的向量表示，從而避免KG中存在新出現的關係時，表示學習模型需要重新訓練的問題。

1、相關背景

1.1、基於生成對抗網絡的零樣本學習

零樣本學習，即處理那些未在訓練集中出現過的類別的分類問題。在訓練集中出現過的類別（即seen classes），有訓練數據，此類classes經訓練具備一定分類該類測試樣本的能力；而未在訓練集中出現過的類別（即unseen classes），無訓練數據，此類classes測試樣本的分類/預測依賴與seen classes建立一定的語義聯繫（如文本描述、屬性描述等），遷移相關seen classes的樣本特徵，使得unseen classes的樣本特徵得到學習，並最終實現分類。

近年來，隨着生成對抗網絡（Generative Adversarial Networks, GANs）在生成圖片等方面的成熟運用，許多研究者將GANs引入零樣本學習中，爲unseen classes，這些缺少樣本的classes生成訓練樣本，使得零樣本學習轉化爲傳統的監督學習，從而對unseen classes測試樣本進行預測。

此類方法的一般框架爲：基於類別的語義描述（文本描述等）及一些隨機噪聲，輸入到GAN的生成器（Generator）中，生成該類別對應的樣本特徵；同時，在判別器（Discriminator）中，將生成的樣本（fake data）與真實樣本的特徵（real data）經過對抗，使得生成器生成高質量的樣本。經過訓練的生成對抗網絡，具備爲unseen classes生成樣本的能力。

1.2、知識圖譜中的零樣本關係學習

知識圖譜的表示學習通常用於知識圖譜的補全（鏈接預測等）任務，對於一個三元組，在給定頭實體（head entity）及關係的情況下，預測其對應的尾實體（tail entity）。這篇文章的作者們考慮了KG中的零樣本關係學習，即對於新出現的一些關係，在不經過表示學習算法重新訓練的情況下，依然能在這些關係上進行鏈接預測的任務。

考慮KG中存在一些由seen relations組成的訓練數據集： $D_s=\{(e_1,r_s,e_2,C_{(e_1,r_s)})\}$ ，其對應的測試集由unseen relations組成： $D_u=\{(e_1,r_u,e_2,C_{(e_1,r_u)})\}$ ，零樣本學習算法最終的任務即爲這些unseen relations涉及到的head entity預測其對應的tail entity。值得注意的是，本篇文章的問題設定集中在處理zero-shot relations，未考慮會出現一些新的實體，即KG中的實體在訓練集和測試集中都出現過。換句話說，在測試時，對於KG中已經存在的實體添加了一些zero-shot relations，預測它們是否構成一個完整的三元組。

2、算法模型

因此，本文提出使用生成對抗網絡爲知識圖譜中的unseen relations生成特徵表示，從而解決知識圖譜中的零樣本關係學習問題。本文的框架如下圖所示。

其中，

生成器（G）：利用關係的描述文本，生成關係的特徵表示向量（即relation embedding），此向量蘊含了KG中的語義信息；
判別器（D）：分類/判別生成樣本和測試樣本，並且爲保證生成樣本的質量，對生成的樣本進行分類，使得樣本具有inter discriminative的特徵；
預訓練的特徵編碼器：編碼某關係對應的三元組（即獲取真實樣本的特徵分佈）。

下面將詳細介紹這三個部分。

2.1、特徵編碼器

對於某關係 $r$ ，存在一系列的實體對集合，這些實體對描述了該關係的樣本特徵分佈。對於其中的每一對實體，特徵編碼器首先通過一個entity encoder和一個neighbor encoder捕獲這些實體對的蘊含的特徵；隨後，得到實體對的表示後，特徵編碼器再組合得到該關係的表示。

Entity encoder首先將實體經過一個全連接層，隨後將實體對對應的兩個實體進行拼接，得到： $f_2(v_e)=W_2(v_e)+b_2$ $u_{ep}=\sigma(f_2(v_{e_1})\oplus f_2(v_{e_2}))$

其次，neighbor encoder將實體對中每一個實體對應周圍一跳範圍的關係和實體進行編碼，具體地，對於實體周圍一跳範圍的實體關係集合 $\mathcal{N}_e=\{(r^n,e^n)|(e,r^n,e^n)\in \mathcal{G}\}$ ，neighbor encoder將每一對鄰居經過拼接之後，再分別經過全連接層，最終計算所有鄰居表示的均值，得到： $f_1(v_{r^n},v_{e^n})=W_1(v_{r^n}\oplus v_{e^n})+b_1$ $u_e=\sigma(\frac{1}{|\mathcal{N}_e|}\sum_{(r^n,e^n)\in \mathcal{N}_e}f_1(v_{r^n},v_{e^n}))$

其中，對於所涉及實體和關係的初始化表示（ $v_{r^n}$ , $v_{e^n}$ , etc.）可由TransE等經典的KG embedding模型得到。

對於該實體對，拼接上述實體表示，可得到關係特定的實體對錶示： $x_{(e_1,e_2)}=u_{e_1}\oplus u_{ep}\oplus u_{e_2}$

整體過程如下圖所示：

最終，對關係 $r$ 所有的實體對的表示進行聚類可得到關係 $r$ 的特徵表示： $x_c^r=\frac{1}{N_r}\sum_{i=1}^{N_r}x_{(e_1,e_2)}^i$

此特徵編碼器的訓練，文章採用了基於margin loss的預訓練策略。具體地，對於關係 $r$ ，首先選定一些reference triples作爲標準集，即 $\{e_1^{\ast},r_s,e_2^{\ast}\}$ ，可得到關係的reference embedding $x_{(e_1^{\ast},e_2^{\ast})}$ ，在訓練時，使正樣本 $\{e_1^+,r_s,e_2^+\}$ 的表示逼近reference embedding，而負樣本 $\{e_1^+,r_s,e_2^-\}$ 的表示遠離 reference embedding，loss function爲： $L_w=max(0,\gamma+score_w^+-score_w^-)$

其中，正樣本的score即爲計算正樣本和reference triple之間的cosine相似度： $score_w^+=cosine(x_{(e_1^+,e_2^+)},x_{(e_1^{\ast},e_2^{\ast})})$

2.2 生成器

生成器利用關係 $r$ 的描述文本及噪聲，生成關係 $r$ 的特徵表示，如下圖所示。

對於關係的描述文本，作者利用文本中每個詞的word embedding，並通過計算文本中詞的TF-IDF權重，對這些word embedding進行加權求和得到文本描述的向量表示。隨後，文本的向量表示與隨機採樣的噪聲共同作爲生成器的輸入。其中，生成器由兩層全連接層及激活層函數組成，最終，生成關係 $r$ 的特徵表示。生成器的loss function爲： $L_{G_{\theta}}=-\mathbb{E}_{z\sim p_z}[D_{\phi}(G_{\theta}(T_r,z))]+L_{cls}(G_{\theta}(T_r,z))+L_P$

其中，生成樣本表示爲 $G_{\theta}(T_r,z)$ ， $T_r$ 爲關係 $r$ 的文本描述表示， $z$ 爲隨機採樣的噪聲；loss function的第一項爲GAN中的Was.serstein loss，第二項爲分類生成樣本的分類損失項，第三項爲 visual pivot 正則化項，即使得生成樣本的中心逼近真實樣本的中心。

2.3、判別器

判別器使得真實的樣本和生成的樣本進行對抗，從而訓練生成器生成高質量樣本的能力，其loss function爲： $L_{D_{\phi}}=\mathbb{E}_{z\sim p_z}[D_{\phi}(G_{\theta}(T_r,z))]-\mathbb{E}_{x\sim p_{data}}[D_{\phi}(x)]+\frac{1}{2}L_{cls}(G_{\theta}(T_r,z))+\frac{1}{2}L_{cls}(x)+L_{GP}$

其中，前兩項爲計算真實樣本和生成樣本的Wasserstein距離，第三項、第四項分別爲分類真實樣本和生成樣本的分類損失函數，最後一項爲Wasserstein GAN網絡中爲保證Lipschitz constraint 約束的GP優化項（即規範判別器的梯度下降）。

2.4、Unseen relations的分類/預測

基於前面訓練好的生成器，給定unseen relation的文本描述，可生成其對應的relation embedding: $\tilde{x}_{r_u}\gets G_{\theta}(T_r,z)$ 。預測時，對於一個query triple $(e_1,r_u)$ ，其候選尾實體對應的score計算如下： $score_{(e_1,r_u,e_2)}=cosine(\tilde{x}_{r_u},x_{(e_1,e_2)})$

爲了驗證生成器的泛化能力，對於關係 $r$ 可生成一組特徵表示向量，其中的每一個與測試樣本計算score之後取均值： $score_{(e_1,r_u,e_2)}=\frac{1}{N_{test}}\sum_{i=1}^{N_{test}}score_{(e_1,r_u,e_2)}^i$

3、實驗

針對提出的zero shot relation learning，文章基於NELL和Wiki構建了兩個數據集：NELL-ZS、Wiki-ZS，其中數據集中的每一個關係均有可獲取的文本描述。其數據統計情況如下圖所示：

考慮到現有的KG embedding的算法無法對unseen relation實現預測，文章提出了三種針對unseen relations改進的baselines：ZS-TransE, ZS-DistMult 和 ZS-ComplEx。這三種baseline，在原TransE, DistMult 和ComplEx算法的基礎上，取代原本算法中對關係進行隨機初始化的操作，利用關係的文本描述學習關係的特徵表示。具體地，與生成器的輸入類似，同樣也使用TF-IDF加權的word embedding得到文本的表示，再經過兩層全連接層得到關係的特徵表示。該表示將與實體隨機初始化的表示在表示學習算法score function的訓練下進行優化。由此，對於unseen relations即可通過關係的文本描述得到關係的表示，從而進行鏈接預測等任務。

在兩個數據集上對比baselines結果如下：

其中，ZSGAN爲本文中提出的方法，ZSGAN(TransE) 等表示在2.1中特徵編碼時，使用TransE預訓練的embedding對實體和關係進行初始化。結果表示，本文提出的ZSGAN對比baseline在兩個數據集上取得了不錯的效果。同時，值得注意的是，在unseen relations存在的情況下，baseline中的DistMult具有一定的學習優勢。

文章同時分析了生成樣本的質量，具體地，計算生成的relation embedding和其對應真實樣本的embedding之間的cosine距離，在一些關係上的對比結果如下所示：

4、總結

本文首次提出了知識圖譜中的零樣本關係學習問題，同時引入生成對抗網絡以生成relation embedding的方式，解決預測時新出現的unseen relations的預測問題。

文本中蘊含的relation之間的關聯信息，爲seen relations和unseen relations構建了類別層面的關聯，使得生成對抗網絡在seen relations的訓練下，可爲unseen relations生成語義豐富的特徵表示。
除文本描述信息外，一般的零樣本學習也利用了屬性描述及類別間層次關係等信息，在知識圖譜零樣本學習的場景中，利用一些relation間更加high-level的關係（如共現關係等）或關係間共有的屬性信息，對零樣本的關係學習是否有貢獻也是值得思考的問題。

同時，本文將研究點關注於KG中zero-shot relation，對於KG中新出現的一些實體（即zero-shot entity）的學習也是值得探索的方向。

基於生成對抗的知識圖譜零樣本關係學習 AAAI2020

1、相關背景

1.1、基於生成對抗網絡的零樣本學習

1.2、知識圖譜中的零樣本關係學習

2、算法模型

2.1、特徵編碼器

2.2 生成器

2.3、判別器

2.4、Unseen relations的分類/預測

3、實驗

4、總結

Transformers與圖神經網絡的關係，我們能從transformer學習到什麼？

BERT: Bidirectional Encoder Representations from Transformers雙向Transformer用於語言模型 NAACL 2018

Structural Deep Clustering Network 基於GNN的深度聚類算法 WWW2020

lgb，xgb，gbdt，adb，RF區別與聯繫

（代碼）使用預訓練的詞向量進行文本分類

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結