GloVe：Global Vectors for Word Representation 理論介紹

原創

2020-07-03 14:02

1、背景介紹

2、摘要：

提出了一種新的詞向量學習方法GloVe， GloVe能夠同時利用全局的統計信息和局部的上下文信息從而學習到非常好的詞向量

3、準備工作

前人工作介紹，主要介紹矩陣分解和Word2vec兩種方法

4、介紹：

矩陣分解和Word2vec學習詞向量的方式各有優劣，本文提出的GloVe同時學習者兩種信息

5、模型介紹：

介紹GloVe的推導過程，GloVe與其他模型之間的聯繫，GloVe的複雜度分析

6、實驗：

實驗探究GloVe模型的效果，以及對某些超參數的分析

7、總結

0、論文背景知識

詞共現矩陣

1. I enjoy flying。

2. I like NLP。

3. I like de

ep learning

基於上下文的向量學習方法 Word2Vec

缺點：無法使用全局的統計信息

研究成果: 在詞對推理數據集上取得最好的結果, 公佈了一系列基於GloVe的預訓練詞向量

論文中的相關介紹

https://nlp.stanford.edu/projects/glove/

1、摘要

當前詞向量學習模型能夠通過向量的算術計算捕捉詞之間細微的語法和語義規律，但是這種規律背後的原理依舊不清楚。經過仔細的分析，我們發現了一些有助於這種詞向量規律的特性，並基於詞提出了一種新的對數雙線性迴歸模型，這種模型能夠利用全局矩陣分解和局部上下文的優點來學習詞向量。我們的模型通過只在共現矩陣中的非0位置訓練達到高效訓練的目的。我們的模型在詞對推理任務上得到75%的準確率，並且在多個任務上得到最優結果。

分析：

我們可以使用一些詞來描述一個詞，比如我們使用冰塊和蒸汽來描述固體、氣體、水和時尚四個詞。

與冰塊接近，並且和蒸汽不接近：固體並且概率比值很大

與蒸汽接近，並且和冰塊不接近：氣體並且概率比值很小

與冰塊和蒸汽都不接近：水和時尚並且概率比值不大不小

結論：共現矩陣的概率比值可以用來區分詞概率計算爲條件概率

（1）爲了描述 Wi 和 Wj 的差異可以使用Wi 和 Wj 做減法生成公式（2）

Wi 和 Wj 是描述差異的，同時右側的比值爲標量，如何把左側的轉化成右側標量

令F=exp，可以有以下推導流程：

可推導出（7）

原理：詞對出現次數越多，那麼這兩個詞在loss函數中的影響越大。

f(X_ij )需要滿足：

•X_ij=0時， f(X_ij )=0：表示沒有共現過的權重爲0，不參加訓練

•非減函數，因爲共現次數越多，權重越大

•f(X_ij )不能無限制的大，防止is，are，the的影響

訓練集的softmax 處理和word2Vec 的 skip-gram 中心詞預測周圍詞的方式一致

Xij 表示有效詞向量

Pij = Xij/ Xi 所以 Xij = Pij*Xi

上面公式中： Pij 爲數據的真實分佈，Qij 爲訓練分佈 H(Pi,Qi) 表示交叉熵損失函數

由於差的平方內部元素可以交換，有下公式

對比下面的GloVe 公式：

（15）（16）相似

論文中指出f(Xij) 比Word2Vec 中的Xi 效果更好一些

實驗結果與分析

•在詞對推理數據集上取得最好的結果

•多個詞相似度任務上取得最好的結果

•命名實體識別實驗結果

•向量長度對結果的影響

•窗口大小對結果的影響

•和Word2vec對比實驗

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Twitch表情中的情緒分析

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Martin Anderson

2021-12-07 16:00:03

達摩院AliceMind上新！首箇中文表格預訓練模型發佈，已向業界開源

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 18:18:58

在元宇宙裏怎麼交朋友？Meta發佈跨語種交流語音模型，支持128種語言無障礙對話

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-23 14:03:53

人工智能時代，如何硬核玩音樂？| InfoQ《大咖說》

直播內容：在人工智能技術迅速發展的當下，越來越多的領域被這項技術注入新的活力。作爲多媒體領域中不可缺少的組成部分，音樂對於人類的重要性不言而喻。值得一提的是，人工智能在音樂領域的研究早在多年前就已經開始了，並且也落地了很多成熟應用。當前

InfoQ 中文站

2021-11-12 14:23:49

不是隻有數字化水平高，纔可以落地知識圖譜

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-11 15:23:53

騰訊發佈超大預訓練系統派大星，聚焦解決BERT等超大模型訓練時的“GPU內存牆”問題

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 13:38:53

微軟和英偉達推出訓練語言模型MT-NLG：5300億參數量，是GPT-3的3倍

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-10-12 14:13:53

谷歌推出Translatotron 2，一種沒有深度僞造潛力的語音到語音直接翻譯神經模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-09-10 14:09:01

放心，GPT-3不會“殺死”編程

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-09-03 17:58:55

爲什麼神經網絡不適合理解自然語言？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-08-04 16:13:54

易聊科技宣佈在線客服系統IM永久免費，透視智能客服的商業化潛力

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-07-27 17:33:49

5個流行的自然語言處理庫及入門用法

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-07-26 10:43:50

AI虛擬人多模態交互落地難題如何破解？我們在樂享A.I.技術沙龍成都站找到了答案

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-06-24 16:18:54

官宣！達摩院開源祕藏深度語言模型體系AliceMind，NLP正在走向大工業時代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-06-22 14:48:49

讓普通人秒會編程？微軟在Power平臺上集成GPT-3，將自然語言直接變成現成代碼

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-28 17:48:57

24小時熱門文章

最新文章

最新評論文章