PaperReading-TransE《Translating Embeddings for Modeling Multi-relational Data》

本文記載有關閱讀《Translating Embeddings for Modeling Multi-relational Data》TransE論文的閱讀筆記,如果有做相關工作的同學可以郵件和我溝通聯繫[email protected]

背景

知識圖譜通常是用一個三元組(前件h,關係r,後件t)來表示一條知識,比如:(中國科學院大學,地點,北京),要使用向量表示的話,可以使用one-hot向量(實際使用中通常是mulit-hot向量)來表示。但是問題也來了,one-hot向量維數太高,而且無法表示相近的實體或關係之間的相似程度。所以類比詞向量的表示方法,也想使用分佈式表示(distributed representation)來表示知識圖譜中的實體和關係,通過學習獲得它們的低維稠密表示。

摘要

如何對於多關係類型的圖結構數據,在一個低緯度空間中,對圖上的實體和關係得到一個表徵結果,換句話說就是構建一個算法,將圖上的實體和關係用一個低微稠密向量來表示。

思想

TransE的思路其實很簡單,就是利用了空間傳遞不變形,目的就是找到一個實體和向量空間,使得整體正例三元組(正例三元組就是在圖譜中實際存在的三元組)之間的勢能差值最小。

勢能差的定義方法是t(h+r)t-(h+r),其中h,r,t分別是頭實體、關係、尾實體的表徵結果,計算方法就利用向量計算即可。

基於這樣的方法認爲,在現實的圖譜三元組中存在的表達內容(頭實體可以通過關係到達尾實體)也可以在找到的向量空間中進行表達,語義空間發生了轉變(由現實世界空間到了向量空間),但是語義內容沒有發生改變,語義內容在空間傳遞上是不變的。和這個相似的例子就是在word2vec中提到的queenwoman+man=kingqueen-woman+man=king的公式,在現實空間中,四個實體的關係就是公式所表示的,如果我找打了一個向量空間,在向量空間中的四個實體仍然具有相同關係,這樣就可以說找到的向量空間具有了語義內容空間傳遞的不變形。
關係作爲在向量空間的中翻譯
原文中的這一段也可以看出來,Trans的思路就是把關係作爲在向量空間的翻譯功能,使得頭實體通過這個翻譯更加接近尾實體,h+lth+l ≈ t,使得這個不等式儘量的相等,這兩個之間的差值被稱爲勢能,最終找到使得整體的圖譜勢能最小的那個空間。

僞代碼

在這裏插入圖片描述
論文中的僞代碼寫的很清楚了,首先隨機初始化下實體和關係,在每次進行採樣和計算勢能差值的時候都要對實體進行歸一化,然後計算勢能差值d(h+t,l)d(h+t,l),同時在採樣的時候採用了兩種採樣方法,先對正例採樣(正例是在圖譜中真實存在的三元組),然後對正例三元組進行改造,構造負例三元組,構造負例三元組的方式是隨機的將正例三元組中的頭或者尾實體替換一個,這樣負例三元組是不在圖譜中數據。
在計算損失函數時,採用的是合頁損失函數,具體也就是使得正例的勢能差儘量的小,使得負例的勢能差儘量的大,正例負例樣本勢能差之間的區分度是margin,通過margin將兩種樣本區分開,兩種樣本的之間的距離的最大值是margin,大兩個樣本之間的距離更大時也不會獲得更多的獎勵。

勢能差的計算方法是

在這裏插入圖片描述
在勢能差的計算方法中,由於對實體、關係都作惡歸一化,所以前三項都是1,只需要計算後面的距離即可

結論

TransE具有很好的解釋性,將多種關係的圖譜中的實體和關係在一個低微空間中進行表示,獲得每個實體的表徵結果
TransE的不足:在處理複雜關係(1-N,N-1,N-N)時,性能顯著下降,比較適合處理1-1 的關係。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章