[論文研讀]非對稱統計詞向量(GloVe)

簡述

相對於Skip-gram來講,主要區別在於 1、非對稱的中心詞與上下文向量表示 2、統計信息的利用(體現在偏置上) 3、目標函數 softmax->最小二乘法

文章全名:GloVe: Global Vectors for Word Representation

細節

文章推導過程非常細,值得學習,但中心只有一個,就是目標函數

帶帽子的是上下文,不帶帽子的是中心詞,Xij爲共現次數,f(Xij)是權重,w爲向量,b爲偏置,對共現次數做非線性映射,保證單調增長的前提下,拉高非高頻共現對的權重。

指數文中取3/4

偏置來源於Xij/Xi的非對稱轉換,即文章的初衷,統計信息的利用。

討論

文章認爲GloVe好於Skip-gram,原因是使用了統計信息,但我覺得更重要的,應該是非對稱表示,CDSSM論文中對DSSM的改進之一也是用不同的網絡生成Query和Document的向量,但論文沒有給出對稱表示和非以稱表示的對比。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章