Network Embedding 網絡表示學習 與 神經網絡嵌入

NE 的中心思想就是找到一種映射函數,該函數將網絡中的每個節點轉換爲低維度的潛在表示

傳統意義上的 Graph Embedding 被看成是一個降維的過程,而主要的方法包括主成分分析(PCA)和多維縮放(MDS)。所有的方法都可以理解成運用一個 n × k 的矩陣來表示原始的 n × m 矩陣,其中 k << n。

另一類流行的降維技術使用可從圖中導出的矩陣的光譜特性(例如,特徵向量)來嵌入圖的節點。拉普拉斯特徵映射(Laplacian eigenmaps)通過與其k個最小非平凡特徵值相關聯的特徵向量表示圖中的每個節點。

 

嵌入(embedding),即用連續向量表示離散變量的方法,像機器翻譯中的詞嵌入和分類變量中的實體嵌入,都是嵌入的成功應用。

嵌入(Embeddings)

在神經網絡中,嵌入後的數據維度較低,它能將離散的序列映射爲連續的向量。

神經網絡嵌入的主要用途有三種:

  1. 在嵌入空間中找到最近鄰。
  2. 作爲有監督的機器學習模型的輸入。
  3. 挖掘變量間的關係。
  4. 神經網絡嵌入還克服了獨熱編碼的侷限性。

獨熱編碼(One-Hot Encoding)的侷限性

獨熱編碼用於處理類別變量的最簡單的嵌入方法,能夠將不同的類別映射爲不同的向量。獨熱編碼保證了每一個取值只會使得一種狀態處於“激活態”,也就是說這N種狀態中只有一個狀態位值爲1,其他狀態位都是0。

獨熱編碼有兩大缺陷:

1.當類別的數量很多時,特徵空間會變得非常大。映射後的向量容易產生維數災難。

2. “相似”的類別映射在嵌入空間後並不相鄰。

第二個問題同樣帶來了很大的侷限性:獨熱編碼並沒有讓相似的類別在嵌入空間中相鄰。在進行獨熱編碼後,利用餘弦相似度計算出的向量間的相似度均爲0。

學習嵌入(Learning Embeddings)

通過在有監督的任務中使用神經網絡學習嵌入,可以大大提高嵌入能力。權重是學習嵌入過程中的重要參數,起調節作用以最小化損失函數。

嵌入本身並不是那麼有趣,它們只是一些向量。爲了計算相似度,我們選擇一本書,計算它與所有書目的點積。(如果我們的嵌入是標準化的,點積爲向量之間的餘弦距離從-1,即最不相似,到+1,即最相似。此外還可以使用歐幾里德距離來測量相似度)。

神經網絡嵌入能夠將離散的數據表示爲連續的低維向量,克服了傳統編碼方法的侷限性,能查找最近鄰,作爲另一個模型的輸入以及進行可視化,是處理離散變量的有效工具,也是深度學習的有效應用。

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章