1、背景介紹
2、 摘要:
提出了一種新的詞向量學習方法GloVe, GloVe能夠同時利用全局的統計信息和局部的上下文信息從而學習到非常好的詞向量
3、 準備工作
前人工作介紹,主要介紹矩陣分解和Word2vec兩種方法
4、 介紹:
矩陣分解和Word2vec學習詞向量的方式各有優劣,本文提出的GloVe同時學習者兩種信息
5、 模型介紹:
介紹GloVe的推導過程,GloVe與其他模型之間的聯繫,GloVe的複雜度分析
6、實驗:
實驗探究GloVe模型的效果,以及對某些超參數的分析
7、總結
0、論文背景知識
詞共現矩陣
1. I enjoy flying。
2. I like NLP。
3. I like de
ep learning
基於上下文的向量學習方法 Word2Vec
缺點:無法使用全局的統計信息
研究成果: 在詞對推理數據集上取得最好的結果, 公佈了一系列基於GloVe的預訓練詞向量
1、摘要
當前詞向量學習模型能夠通過向量的算術計算捕捉詞之間細微的語法和語義規律,但是這種規律背後的原理依舊不清楚。經過仔細的分析,我們發現了一些有助於這種詞向量規律的特性,並基於詞提出了一種新的對數雙線性迴歸模型,這種模型能夠利用全局矩陣分解和局部上下文的優點來學習詞向量。我們的模型通過只在共現矩陣中的非0位置訓練達到高效訓練的目的。我們的模型在詞對推理任務上得到75%的準確率,並且在多個任務上得到最優結果。
分析:
我們可以使用一些詞來描述一個詞,比如我們使用冰塊和蒸汽來描述固體、氣體、水和時尚四個詞。
與冰塊接近,並且和蒸汽不接近:固體並且概率比值很大
與蒸汽接近,並且和冰塊不接近:氣體並且概率比值很小
與冰塊和蒸汽都不接近: 水和時尚並且概率比值不大不小
結論: 共現矩陣的概率比值可以用來區分詞 概率計算爲條件概率
(1)爲了描述 Wi 和 Wj 的差異可以使用Wi 和 Wj 做減法生成公式(2)
Wi 和 Wj 是描述差異的,同時右側的比值爲標量,如何把左側的轉化成右側標量
令F=exp,可以有以下推導流程:
可推導出 (7)
原理:詞對出現次數越多,那麼這兩個詞在loss函數中的影響越大。
f(X_ij )需要滿足:
•X_ij=0時, f(X_ij )=0:表示沒有共現過的權重爲0,不參加訓練
•非減函數,因爲共現次數越多,權重越大
•f(X_ij )不能無限制的大,防止is,are,the的影響
訓練集的softmax 處理和word2Vec 的 skip-gram 中心詞預測周圍詞的方式一致
Xij 表示有效詞向量
Pij = Xij/ Xi 所以 Xij = Pij*Xi
上面公式中: Pij 爲數據的真實分佈,Qij 爲訓練分佈 H(Pi,Qi) 表示交叉熵損失函數
由於 差的平方內部元素可以交換,有下公式
對比下面的GloVe 公式:
(15) (16) 相似
論文中指出f(Xij) 比Word2Vec 中的Xi 效果更好一些
實驗結果與分析
•在詞對推理數據集上取得最好的結果
•多個詞相似度任務上取得最好的結果
•向量長度對結果的影響
•窗口大小對結果的影響
•和Word2vec對比實驗