論文淺嘗 | 基於文本關聯的知識圖譜的無監督嵌入增強



來源:IJCAI2019

論文鏈接: https://www.ijcai.org/proceedings/2019/0725.pdf

 

概述

知識圖譜嵌入是從多關係數據中提取數據的工具,最近的嵌入模型對從現有數據庫中推斷新事實具有很高的效率。然而,這種精確結構的數據通常在數量和範圍上都是有限的。因此,要充分優化嵌入,還必須考慮更廣泛可用的信息源(如文本)。本文描述了一種通過增加實體嵌入和關聯詞嵌入來整合文本信息的無監督方法。該方法不修改知識圖譜嵌入的優化目標,這允許它與已有的嵌入模型集成。同時考慮了兩種不同形式的文本數據,並針對每種情況提出了不同的嵌入增強。在第一種情況下,每個實體都有一個描述它的關聯文本文檔。在第二種情況下,文本文檔不可用,相反,實體以單詞或短語的形式出現在非結構化的文本片段語料庫中。實驗表明,這兩種方法在應用於多種不同的知識圖嵌入模型時,都能有效地提高連接預測的性能。

 

模型和方法

 

嵌入增強方法

在本節中,作者將討論將文本數據合併到知識圖譜嵌入中的新方法。此附加信息允許培訓過程學習同時從知識庫和相關文本中反映事實的實體表示。根據可用文本數據的形式,我們考慮兩種不同的場景:在第一種場景中,每個實體都有一個與之相關的文檔來描述或定義實體;例如,歐洲的維基百科條目。這些數據可以從許多來源獲得,包括百科全書或字典。在第二個場景中,我們考慮一個非結構化的語料庫,它不直接鏈接到任何實體,但包含在任意位置的實體。例如,一篇提到歐洲的新聞文章可能是這個語料庫的一部分。對本文的組織結構沒有任何假設,因此它通常可以是從多個文檔中收集的句子的集合。這兩種形式的數據之間的關鍵區別在於,在前者中,實體是文檔中所有單詞的基礎主題,而在後者中,實體只是包含未知主題的混合文檔中提到的對象。結果,第一種情況包含每個單詞以某種方式與已知實體相關的附加信息。對於第二種情況,我們只假設在相同上下文中出現的單詞之間存在關聯。這一區別如圖1所示。

            

1.1 實體描述的嵌入模型

 

在本節中,我們爲圖1中的第一個場景提供了一個模型,其中文本數據可用作實體描述。我們的方法基於[Socher等人,2013]的字向量模型,該模型將實體向量定義爲實體名稱中字向量的平均值。首先,我們觀察到,該思想也可以應用於實體描述,從而強制實體嵌入共享共同的文本特徵,如屬性或關係詞。這將爲語義上更相似的實體生成更相似的向量。然後,我們通過添加新參數來控制每個單詞對給定關係的實體組成的貢獻程度,從而改進了該模型。

我們首先對WordVectors模型進行形式化,我們已經對其進行了調整,以適應實體描述的情況。設文本(ei)=wi,1,wi,2。. . 是與實體ei相關聯的單詞序列。設W表示詞向量的nw×d矩陣,其中nw是詞彙表中的詞個數,d是嵌入維數。讓Ai表示nw維向量,使得Aik是單詞wk在文本中出現的次數(ei)。然後,ei的嵌入向量可以表示爲

            

上述等式的一個限制是描述中的所有單詞都被同等對待;通常情況下,某些單詞比其他單詞更適合預測關係。例如,樂器、鼓和職業等詞可能比其他詞(如女演員或星期六)更能反映音樂團體成員關係。因此,在預測音樂羣體成員關係時,應以樂器、鼓、職業等詞來表示一個實體。

另一方面,在預測教育等不同關係時,加拿大人、課程或常春藤等詞可能更具相關性,因此實體應該更強烈地用這些詞來表示。這樣,包含“常春藤”一詞的實體向量在教育關係上比在音樂團體成員中更爲相似。因此,這種模型可以預測兩個實體共享前一種關係,而不是後一種關係。

這種行爲可以通過引入nr×nw矩陣B來實現,使得Bjk表示單詞wk在預測關係rj中的重要性。然後我們可以定義實體ei在關係rj下的表示爲

        

這裏⊙表示元素相乘。這樣,單詞wk對實體向量的總權重是文本中wk的頻率(e i)(即Aik)和wk與ri的相關性(即Bjk)的組合。

然而,每個詞對於預測每一種關係的意義通常是未知的。因此,我們用B i j=1對所有i,j初始化B,並通過梯度下降來學習這些參數。如第4節所示,該程序能夠自動學習單詞與不同關係的關聯,而無需任何監督。

我們可以用公式3代替表1中的ei,將文本信息合併到任何知識圖嵌入模型中。例如,擴展的TranSE模型是

                       

我們稱這種方法爲加權詞向量(WWV)。

 

1.2 一種參數有效加權方案

 

如前一節所述,WWV模型的一個潛在缺點是矩陣B中的參數數目爲nr×nw,這對於某些數據集來說可能是非常大的。這可以通過允許Bij從較少數量的參數派生而不是將每個參數定義爲獨立的參數來改進。爲此,我們引入nr×d矩陣P,並定義關係ri和單詞wj的權重如下:

                      

公式4中Pi是單詞特徵空間中關係ri的表示,與單詞向量Wj的特徵空間相同。由於Pi和Wj使用相同的特徵,PiWTj是ri和Wj之間相似性的度量,它充當它們之間的權重。例如,我們可能期望關係ri=音樂組成員的向量Pi與關係Wj=樂器的向量Wj相似,因爲音樂組和樂器的概念在語義上是相關的。

雖然使用softmax函數定義權重Bij在概念上很有吸引力,但實際上不需要標準化因子,因爲在等式3中所有權重都再次標準化。因此,我們可以將關係rj下的實體ei表示爲:   

                   

這裏我們用展開形式表示了等式3的向量矩陣乘法,以便更清楚地顯示單詞的加權平均值。因此,可訓練參數的數目從nr×nw減少到nr×d。我們將等式5中的模型稱爲參數有效加權詞向量(PE-WWV)。儘管參數較少,但第4節證明了PE-WWV在預測精度上與WWV相當。

 

1.3訓練過程

 

在訓練WWV和PE-WWV模型時,由於單詞嵌入參數W和權重B都必須在沒有監督的情況下同時學習,因此產生了一個挑戰。也就是說,優化器必須爲每個關係發現最重要的詞,而不必對這些關係或詞進行任何理解或描述。由於初始隨機性,優化器在訓練的早期階段可能會過分強調不相關的詞,然後永遠找不到好的解決方案。

我們發現,在前50個訓練階段保持單詞權重(B和P)不變,可以大大緩解這個問題。這允許優化器首先學習語義上有意義的單詞表示,而不會因爲單詞權重的變化而中斷。然後,在剩餘的訓練階段,我們優化所有參數,並能夠發現最相關的單詞。

 

1.4非結構化語料庫的嵌入模型

 

在本節中,我們考慮圖1中的第二個場景。爲了從非結構化數據中獲取信息,我們在給定的語料庫上訓練word2vec模型[Mikolov等人,2013],以學習單詞的嵌入向量。Word2vec被訓練爲將相似的向量分配給通常出現在相同上下文中的單詞,這使得它非常適合學習實體向量。例如,句子片段布賴恩瓊斯和他的吉他手基思理查茲開發了一個獨特的。。。很清楚地說明了布賴恩·瓊斯和基思·理查茲之間的關係。由於Brian Jones和Keith Richards在同一個上下文中以單詞的形式出現,因此這些實體的word2vec向量將更類似於非結構化語料庫的嵌入模型。

word2vec向量還可以捕獲顯示爲屬性而不是句子對象的特徵。在上面的例子中,這個句子還表示布賴恩·瓊斯和吉它之間的關聯。這對於預測布賴恩·瓊斯的其他關係類型(如樂器演奏或音樂團體成員)可能是一個有力的暗示。當給出這個訓練語句時,word2vec將學習在Brian Jones的向量中隱式地編碼該信息。這使得通過使用word2vec特徵向量來增加實體嵌入中的信息成爲可能。

整個模型的工作原理如下。讓wi表示實體ei的名稱的word2vec向量,讓ei表示實體向量。我們將實體ei的擴充向量定義爲:

                          

因此,ei中的每個潛在特徵都包含原始實體向量和word2vec向量的貢獻。和方程式一樣。3和5,式6可應用於任何知識圖嵌入模型,方法是將表1中的ei替換爲ˆei。

由於word2vec在知識圖嵌入過程中學習了一組不同的潛在特徵,因此我們使用矩陣M將word2vec特徵空間中的向量映射到實體特徵空間。注意,與在SE、TRANSR和RESCAL模型(即R、R(1)和R(2))中操作實體的特定於關係的轉換不同,M是所有關係類型通用的全局矩陣。因此,向量wM包含的特徵有助於預測三元組,但可以從文本中學習。我們將公式6稱爲特徵和模型。

特徵和模型分三個階段進行訓練。首先,在語料庫上訓練word2vec獲得wi向量,然後兩個階段對排序損失目標進行優化(方程1)。最初,M被設置爲零並保持不變,而實體和關係參數E和R被優化爲100個階段。最後,包括M和wi在內的所有參數在剩餘的訓練期間一起訓練。

 

實驗

在本節中,我們評估了在Freebase[Bollacker等人,2008]和Wordnet[Miller,1995]的標準子集上提出的嵌入增強方法。我們將這些方法應用於表1中的每個評分函數,證明了它們增強現有嵌入模型的能力。我們首先將鏈路預測任務中的WWV和PE-WWV模型與包含實體描述的替代方法進行定量比較,然後定性地檢查WWV模型,以更好地瞭解其性能。接下來,我們將FeatureSum模型與使用非結構化文本語料庫的替代方法進行比較。

 

WWV和PE-WWV結果

 

在本節中,我們將評估加權詞向量模型的兩個變體-WWV和PE-WWV。我們比較了合併格式化爲實體描述的文本數據的替代方法,即WordVectors模型,但應用於實體描述而不是名稱。我們把這個模型稱爲WV-desc,我們還考慮了基線方法,稱爲Base,其中實體向量簡單地隨機初始化和優化,沒有附加文本。

表2給出了這兩個數據集的平均rank和命中率@10指標。考慮到WWV是WV的泛化,可以通過簡單地在公式2中爲每個j,k設置Bjk=1來減少WWV的性能,我們期望WWV的性能應該比WV-desc好。事實上,WWV在大多數情況下的平均秩和命中率都優於WV-desc。

令人有些意外的是,PE-WWV模型的性能至少和WWV一樣好,在許多情況下甚至更好。有人可能會認爲PE-WWV的性能會更差,因爲它的表示容量不大於WWV。通過設置Bjk=exp(PjWTk),可以使WWV等效於PE-WWV,這意味着它在理論上至少也可以執行。經過更深入的研究,我們發現PE-WWV傾向於學習比WWV相對更強的單詞權重,這反過來又允許它在不同關係的實體表示之間創建更大的可變性。因此,WWV似乎受到優化算法的限制,而不是其理論性質。

與基線相比,平均排名在大多數情況下都有所提高,而hits@10則顯示了Wordnet和Freebase之間的不同結果。對於Wordnet,與任何文本增強方法相比,基線在hits@10上的性能最好,這意味着此數據集中的文本可能並不十分指示關聯的實體。不過,對於Freebase來說,這些描述提供了顯著的好處,在大多數情況下,平均rank和命中率@10都提高了。

爲了更好地理解這種行爲,我們檢查了Wordnet測試三元組,這些三元組在基線上的排名明顯好於WWV-desc。我們觀察到,在許多情況下,相關實體由完全不同的文本描述。例如,一個這樣的三元組是(千字節,有部分,字),其中主題和對象的Wordnet定義是“單位信息等於字節”和“存儲在計算機內存中的字字符串位大型計算機使用字位長”(省略了停止字)。

             

由於這些定義不包含常用詞,因此在WVdesc模型中,它們可能看起來不相關。相比之下,維基百科上關於千字節和單詞的摘要包含了諸如unit、digital和memory之類的常用關鍵字,這可能解釋了爲什麼WV-desc在Freebase上表現得更好。

爲了進一步驗證這一假設,我們計算了每個三元組中主語和賓語描述之間的平均常用詞數量。在Wordnet中,按基數排名的三元組平均包含0.67個常用詞,而按WV desc排名的三元組平均包含0.89個常用詞。相比之下,Freebase中的三元組平均包含20.0個常用單詞。因此,與Wordnet相比,word vectors方法需要更詳細的實體描述。

 

定性結果

 

爲了更好地理解WWV模型是如何工作的,我們在訓練之後檢查哪些單詞被賦予了每個關係的最大權重。表3列出了使用TransE訓練的Freebase中幾個關係ri的前10個單詞(從Bi中最強的權重中提取)。

我們觀察到,許多熱門詞彙在語義上與關係相似。例如,出生地關係傾向於強調屬於民族的詞語,而作爲音樂團體成員的關係則強調與樂器(如樂器、弦和鼓)有關的詞語。這表明,模型的功能正如我們的直覺所暗示的那樣,並用最能表明所討論的關係的詞語來表示實體。請注意,此表中單詞和關係之間的關聯是以完全無監督的方式學習的,只提供文本和訓練三元組。

           

特徵和結果

 

在本節中,我們將FeatureSum模型與其他方法進行比較,以合併來自非結構化文本語料庫的信息。每個方法在定義實體向量的方式上都不同。WV name s模型應用了[Socher等人,2013年](等式2)的WordVectors技術,其中每個實體與其名稱的組成詞相關聯。此模型也不使用任何補充文本數據,但可以在基線上進行改進。WV names init模型類似於WV names,但是每個wi都用word2vec vector初始化。該模型通過word2vec向量的訓練合併了文本數據,因此是FeatureSum模型的一個關鍵參考點。

    兩個數據集的結果見表5。注意,這些結果不能直接與表2進行比較,因爲這兩組實驗使用不同的文本數據。應該在同一個表中跨行進行比較。在這樣做時,Wordnet上的平均秩通常表明,僅對實體名稱應用WV已經給出了顯著的改進,而使用word2vec向量初始化則進一步改進了結果,如[Socher等人,2013]所建議的。對於hits@10,結果是好壞參半的,WVnames方法在某些情況下顯示出優勢,而在其他情況下則顯示出損失。

 

總結

本文討論了兩種利用文本數據信息擴充知識圖中實體嵌入的新方法。第一種方法將實體向量表示爲與每個實體相關聯的詞的直接函數,並且在以實體描述的形式提供文本數據時適用。第二種方法在文本文檔上訓練word2vec算法,並將它爲實體名學習的特徵添加到原始實體特徵向量中。實驗結果表明,如果文本數據具有足夠高的質量,那麼這兩種方法與無文本的嵌入方法和可供選擇的文本合併方法相比,可以提高許多不同嵌入模型的鏈接預測精度。


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章