Word2vec理解推導

原創

2019-02-28 22:35

一旦提到自然語言處理，想必大家都會接觸到經典模型Word2vec，他是用來將單詞矢量化的一個模型，已經被證明所轉換的單詞具有語義話意義，平時我們在處理文本數據時，經常會遇到數據稀疏導致訓練困難的問題，舉個例子，有三個單詞，dog，cat，bird,如果按找平常one-hot的思維，那麼會被轉換成如下形式

	dog	cat	bird
	1	0	0
	0	1	0
	0	0	1

試想一下，若語料庫有幾十萬個單詞，那麼按如上轉換方法矩陣的維度會有多大，並且矩陣中大部分數據都是0，這種情況我們稱爲稀疏矩陣，在訓練上處理起來非常困難（你的內存會爆[微笑]），接着我們的google工程師出馬了，怎麼辦呢，壓縮呀！把矩陣維度要給搞下來啊，這個過程官方稱爲Distributed representation（分佈式表達），它的思路是通過訓練，將每個詞都映射到一個較短的詞向量上來。所有的這些詞向量就構成了向量空間，進而可以用普通的統計學的方法來研究詞與詞之間的關係。這個較短的詞向量維度是多大呢？這個一般需要我們在訓練時自己來指定。在上面的基礎上稍微解釋一樣，所謂分佈式表達就是找到一列通俗的向量去衡量這些詞，例如用腿的數量去衡量dog,cat,bird，數字越大代表腿越多，這個是我隨便舉的一個，意會一下就行。

	dog	cat	bird
腿的數量	0.8	0.8	0.5
行走的速度	0.5	0.6	0.7

接下來進入正題了，word2vec分爲CBOW和SG模型，先從CBOW開始說

1.CBOW

1.1 一個單詞的文本

如圖上爲最簡單的通過一個單詞通過one-hot(形式爲{x1,x2,...xv})作爲輸入，有

Vwi即是輸入單詞Wi的向量表示。

隱藏層---->輸出層

有另一個N*V的權重矩陣W'={W'ij},通過這個權重矩陣，我們可以計算詞彙表中每個單詞的得分Uj

接着就可以使用softmax來得到單詞的後驗分佈

基於上述公式可得到

Vw和V‘w都是單詞w的兩種表示，Vw來自w矩陣的行，V’w來自矩陣W’的列，在隨後分析中我們將 Vw稱爲單詞w的輸入向量，V’w爲單詞w的輸出向量。

隱藏層---->輸出層的權重更新公式

其中j*是輸出層中實際單詞的索引，uj是詞彙中第j個單詞的得分

所以損失函數是

其中tj=1(j=j*),當且僅當第j個單元是真實輸入單詞時tj=1，否則tj=0，這個導數ej表示輸出層第j個單詞的預測誤差。

接下來，我們利用w'ij的導數求出隱藏層--->輸出層的梯度

再通過隨機梯度下降，我們得到輸出權重的更新公式

輸入層---->隱藏層的權重更新公式

接下來，計算E對w的導數，回想起隱藏層對輸入層的值進行線性計算

我們得到V*N矩陣，X中只有一個元素是非零的，E對W的偏導中只有一列是非零的，那一列的值爲EH^T,N維向量得到W的更新等式

Vwi是W中一行，唯一單詞的輸入向量，並且是W的導數中唯一一行非0的，W中其它行在接下來迭代中都不會改變，因爲他們的的導數都是0.

1.2 多詞文本（Multi-word Context）

CBOW的核心即是輸入某個特定單詞的上下文單詞向量，輸出這個特定單詞的向量

根據上述說的輸入一個單詞情況理論，我們容易推出多詞向量情況，隱藏層爲權重乘向量相加取平均

C爲文本中單詞數量，其損失函數爲

2.Skip-Gram Model

skip-gram模型和CBOW模型剛好相反，其輸入爲特定單詞向量，輸出爲其單詞的上下文單詞向量

在輸出層，不止輸出一個多項式分佈，輸出C個多項式分佈，每一個輸出通過同一個隱藏-輸出矩陣計算

Wc,j是輸出層的C塊的第j個單詞，Wo,c是輸出上下文中第C個詞，Wi是唯一的輸入單詞，Yc,j是輸出層中第C塊的第j個單元的輸出，Uc,j是輸出層中第C塊j單元的淨輸入，由於輸出塊使用同樣的權重，那麼

其中V’wj是詞彙表中第j個單詞的輸出向量，並且V'wj是W‘權重矩陣的一列。

其損失函數爲

3.寫在最後

平時在使用gensim等工具訓練詞向量的時候，我們關心的並不是訓練網絡的輸出，而是訓練過程中的副產物權重作爲我們的詞向量embedding,即上面所提的輸入向量和輸出向量，一般我們都是採用輸入向量。

參考論文：word2vec Parameter Learning Explained

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Faker——NLP造數據神器

Faker——NLP造數據神器寫在前面：開源詞典——funNLP （1）碼雲地址：https://gitee.com/

2020-07-07 21:48:25

代碼+步驟GM（1，1）灰色預測模型-案例長江水質綜合評價賽題-級比檢測C的確定-matlab完整代碼附送

GM（1，1）灰色預測模型-案例長江水質綜合評價賽題第三題-matlab完整代碼附送看到上一篇Blog在短短几天Pageviews就達到了1300多，看來大家還是比較中意建模上的筆記🤭，小白一個，也是是自己在學習上的經驗總結與教

侯永琪在修行

2020-07-08 09:25:15

關係抽取入門級概覽

因爲課題組的需要，過去幾個月一直在學習強化學習和魯棒性算法。再加上忙於課題組中的一些工作，所以過去兩個月基本沒有什麼時間來寫博客。最近讀了不少強化學習和魯棒性算法方面的論文，也有一些小的收穫，等有時間再通過博客分享出來。今天分享的是我近期

2020-07-08 04:10:07

ACL 2018 和 2018 AAAI 接受關於知識圖譜的論文簡述

1.Variational Reasoning for QuestionAnswering with Knowledge Grap 摘要： QA存在的問題：問題存在噪音；需要經過多輪推理才能找到答案。提出基於

垮掉的一代人

2020-07-07 23:44:13

NLP訓練營之問答系統——替換用戶輸入句子中錯誤單詞

替換用戶輸入句子中錯誤單詞構建詞典庫需要生成所有候選集合讀取路透社語料庫構建語言模型：bigram用戶打錯的概率統計 - channel probalility主函數構建詞典庫 # Python rstrip() 刪除 str

2020-07-07 21:48:25

常見的英文文本處理步驟

常見的英文文本處理流程中都包含哪些步驟 1.導入相應的類庫 import nltk from nltk import word_tokenize, sent_tokenize 2.導入數據 corpus = open(‘數據路徑’

2020-07-07 21:45:16

自然語言處理總概括

自然語言處理自然語言處理是什麼自然語言處理(Natural Language Process)就是利用計算機來處理人類語言的學科，屬於計算機與語言學的交叉學科。自然語言處理有哪些技術大致包括如下技術: 1.分詞(Word

2020-07-07 21:45:16

助力句子變換：35W抽象、43W同義、13W簡稱三大知識庫對外開源

句子變換，是指根據給定中文句子，藉助某種語言處理手段，擴展出一定數據規模的中文句子集合，是一個從1到N的過程，目的在於解決搜索（查詢擴展）、分類（樣本擴充）、抽取（數據回標）、推薦與生成（關聯引導）等多個工業級應用任務。我們發現

liuhuanyong_iscas

2020-07-07 20:02:19

NLP實踐-Task1

對cnews數據做一些數據處理 import jieba import pandas as pd import tensorflow as tf from collections import Counter from gensim.m

2020-07-07 14:43:23

CPCY模型_CodingPark編程公園

項目圖紙 https://awwapp.com/b/uo8xhbtbef9cg/ CPCY策劃圖紙-鏈接 https://www.processon.com/view/link/5efde50fe401fd1fd2b

2020-07-07 12:20:22

詞向量-Glove理解推導

Glove模型模型目標：進行詞的向量化表示，使得向量之間儘可能的蘊含語義和語法的信息 Glove用詞向量表達共現詞頻的對數代價函數：模型推導（不是很嚴謹）首先給予一些定義共現詞頻Xi,j 表示若中心詞爲i，語境詞j出現的次數

2020-07-07 08:49:04

切分算法[完全切分 & 正向 & 逆向 & 雙向最長匹配 & 速度測評]_CodingPark編程公園

詞典分詞切分算法詞典導入 # -*- coding:utf-8 -*- # Author：AG # Date: 2020-07-5 from pyhanlp import * def load_dictionary():

2020-07-07 08:22:54

關於nn.embedding的中padding_idx的含義

自然語言中使用批處理時候, 每個句子的長度並不一定是等長的, 這時候就需要對較短的句子進行padding, 填充的數據一般是0, 這個時候, 在進行詞嵌入的時候就會進行相應的處理, nn.embedding會將填充的映射爲0 其中padd

透明的红萝卜221

2020-07-07 06:38:55

2019年CS224N課程筆記-Lecture 5: Linguistic Structure: Dependency Parsing

資源鏈接：https://www.bilibili.com/video/BV1r4411，部分內容參考來自於碼農場 » CS224n筆記6 句法分析和https://zhuanlan.zhihu.com/p/110532288 補充內容

任菜菜学编程

2020-07-07 04:20:10

Bert編碼訓練NER實體偏移的問題

在這裏記錄一下踩過的坑在訓練樣本中幾乎沒有前面一大串英文或者數字，然後後面跟實體的情況，所以訓練起來還挺平穩的。但是在預測的時候遇到了這種情況，造成實體可以識別出來，但是實體的預測結果下標錯了（表現爲下標提前了）造成這一問題

2020-07-07 04:09:15

24小時熱門文章

最新文章

最新評論文章