word2vec學習筆記之CBOW和skip-gram

文章目錄

1. Continuous Bag-of-Word Model(CBOW)

2. Skip-gram model

在上一篇學習筆記《word2vec學習筆記之文本向量化概述》中介紹了word2vec提出的一些背景（當然，除了該篇文章中所說的一些向量化方法之外，在word2vec之後，還有fasttext，glove等其他方法，但在word2vec學習筆記系列中不對這些新的方法進行介紹）。本文將詳細針對word2vec中的CBOW和skip-gram這兩種形式進行詳細介紹。本文主要是學習《word2vec Parameter Learning Explained》進行筆記。
word2vec的兩個模型與上一篇筆記中提到的NNLM相似，均是在訓練語言模型的過程中，使用語言模型的中間產物來得到詞表的詞向量。

1. Continuous Bag-of-Word Model(CBOW)

上圖是連續詞袋模型CBOW的結構圖。該模型中，是使用上下文詞彙來預測中間詞。下面將與《word2vec Parameter Learning Explained》相同，分別從一個詞的上下文和多個詞的上下文來進行介紹。

1.1 One-word context（一個詞的上下文）

這裏是先簡單的從一個詞的輸入上下文開始介紹，即假設輸入側只有一個詞。此時CBOW模型的結構如下

上圖中，輸入層是一個詞的one-hot形式，假設詞表大小爲V，那麼輸入是一個大小爲V維的one-hot向量，該one-hot向量中，僅有所對應的詞的下標處爲1，其他位置均爲0，我們可以將輸入向量記爲 $x$ 。
輸入層經過與一個 $V*N$ 大小的矩陣 $W_{V*N}$ 相乘後，得到N維大小的隱藏層的向量 $h$ ，從輸入層到隱藏層可以理解爲是一個全連接過程，但是跟平時的全連接不同的是，這裏沒有進行非線性函數的處理。並且，由於輸入是一個one-hot向量，因此相乘後的結果實際上是從矩陣 $W_{V*N}$ 中取出第 $k$ 行的向量（one-hot向量中1的下標爲k），也就是詞 $w_I$ 所對應的詞向量。即 $h=W^Tx=W^T_{k,·}:=v^T_{w_I}$
隱藏層再經過與一個 $N*V$ 大小的矩陣 $W'$ 相乘後，得到V維大小的輸出層的向量 $u$ 。其中輸出層向量中的第 $j$ 個元素 $u_{j}$ 就是矩陣 $W'$ 中的第 $j$ 列向量 $v'_{ w_j}$ 與隱藏層向量 $h$ 的乘積 $u=hW'$ $u_{j}={v'_{w_j}}^{T}h$ 然後將輸出的向量 $u$ 進行softmax處理，得到此表中每一個詞的預測概率，而輸出概率最大的詞即爲本次預測的結果。即，輸入 $w_I$ 輸出 $w_{j}$ 的概率爲 $p(w_j|w_I)=y_j=\frac{exp(u_j)}{\sum^V_{j'=1}exp(u_{j'})}$
隱藏層到輸出層之間的權重更新
在模型訓練過程中，假設當輸入的詞是 $w_I$ 時，期望輸出的詞是 $w_O$ ，那麼我們希望 $p(w_O|w_I)$ 能夠最大，即我們訓練的目標是使得下面的式子最大化 $\max p(w_O|w_I)=\max y_{j*}=\max \log y_{j*}=u_{j*}-\log \sum^V_{j'=1}exp(u_{j'}):=-E$ 其中， $E=-\log p(w_O|w_I)$ 就是我們所期望能夠達到最小的損失函數， $j*$ 就是實際輸出詞或者說是我們期望輸出詞在此表中的下標。
接下來，我們使用反向傳播來進行權重的更新。首先是求損失函數 $E$ 對於 $u_j和w'_{ij}$ 的求導（ $u_j$ 是輸出層輸出向量的第 $j$ 個值， $w'_{ij}$ 是矩陣 $W'$ 的第 $i$ 行第 $j$ 列的元素） $\frac{\partial E}{\partial u_{j}}=y_j-t_j:=e_j$ $\frac{\partial{E}}{\partial w'_{ij}}=\frac{\partial E}{\partial u_{j}}·\frac{\partial u_{j}}{\partial w'_{ij}}=e_j·h_i$ 其中，當 $j=j^*$ 的時候 $t_j$ 爲1，否則爲0。於是，矩陣 $W'$ 的更新公式如下 ${w'_{ij}}^{(new)}={w'_{ij}}^{(old)}-\eta·e_j·h_i$ 或者 ${v'_{w_j}}^{(new)}={v'_{w_j}}^{(old)}-\eta·e_j·h$ 其中 $\eta$ 是learning rate。

輸入層到隱藏層之間的權重更新
與上述”隱藏層到輸出層之間的權重更新“過程類似，可以使用以下幾個式子求得損失函數 $E$ 對 $h_i和w_{ki}$ 的求導 $\frac{\partial E}{\partial h_j}=\sum^V_{j=1}\frac{\partial E}{\partial u_j}·\frac{\partial u_j}{\partial h_i}=\sum^V_{j=1}e_j·w'_{ij}:=EH_i$ $\frac{\partial E}{\partial w_{ki}}=\frac{\partial E}{\partial h_i}·\frac{\partial h_i}{\partial w_{ki}}=EH_i·x_k$ 其中 $h_i=\sum^V_{k=1}x_k·w_{ki}$ 而由於輸入向量 $x$ 中僅有一個元素非零，因此 ${v_{w_I}}^{(new)}={v_{w_I}}^{(old)}-\eta EH^T$

1.2 Multi-word context(多個詞的上下文)

多個詞上下問的CBOW的結構圖如下

多個詞的上下文與單個詞的上下文的主要區別在於，每次訓練的時候，輸入層中的輸入詞不是一個而是多個。於是，從輸入層到中間層的映射變爲，將每一個單獨的輸入詞所對應的向量做均值 $h=\frac{1}{C}W^T(x_1+x_2+...+x_C)=\frac{1}{C}(v_{w_1}+v_{w_1}+...+v_{w_C})^T$ 其中，C是輸入層輸入詞的個數。於是損失函數也就變爲 $E=-\log p(w_O|w_{I,1},···，w_{I,C})$ $=-u_{j^*}+\log \sum^{V}_{j'=1}exp(u_{j'})$ $=-{v'_{w_O}}^{T}·h+\log \sum^{V}_{j'=1}exp({v'_{w_j}}^T·h)$ 於是，更新 $W'和W$ 中的值的公式爲 ${v'_{w_j}}^{(new)}={v'_{w_j}}^{(old)}-\eta·e_j·h$ ${v'_{w_{I,c}}}^{(new)}={v'_{w_{I,c}}}^{(old)}-\frac{1}{C}·\eta·EH^{T}$

2. Skip-gram model

上圖是跳字模型skip-gram的結構圖。該模型中，是使用中間詞來預測上下文詞彙。
下圖中每一個節點均是表示一個向量，將上圖中的每一個節點展開爲向量，就與下面的圖相同

在skip-gram中的輸入層到中間層的過程，就與1.1節中介紹的相似，於是也就有了 $h=W^T_{(k,·)}:=v^T_{w_I}$ 在隱藏層到輸出層中，是有多個詞輸出，而每一個詞的輸出概率同樣是 $p(w_{c,j}=w_{O,c}|w_I)=y_{c,j}=\frac{exp(u_{c,j})}{\sum^{V}_{j'=1}exp(u_{j'})}$ 於是skip-gram的損失函數就是 $E=-\log p(w_{O,1},w_{O,2},...,w_{O,c}|w_I)$ $=-\log \prod^C_{c=1}\frac{exp(u_{c,j^*_c})}{\sum^V_{j'=1}exp(u_{j'})}$ $=-\sum^C_{c=1}u_{j^*_c}+C\log \sum^V_{j'=1}exp(u_{j'})$ 其中 $w_I$ 是輸入的詞，w_{O,c}表示輸入的C個詞中的第c個。於是，損失函數對輸出的第c個輸出詞向量的第j個元素的求導爲 $\frac{\partial E}{\partial u_{c,j}}=y_{c,j}-t_{c,j}:=e_{c,j}$ 損失函數E對矩陣 $W'$ 中的第i行第j列元素的求導爲 $\frac{\partial E}{\partial w'_{ij}}=\sum^{C}_{c=1}\frac{\partial E}{\partial u_{c,j}}·\frac{\partial u_{c,j}}{\partial w'_{ij}}=EI_j·h_i$ 於是，可更新權重 ${w'_{ij}}^{(new)}={w'_{ij}}^{(old)}-\eta·EI_j·h_i$ 或者 ${v'_{w_j}}^{(new)}={v'_{w_j}}^{(old)}-\eta·EI_j·h$
而在skip-gram的輸入層到隱藏層的過程與一個詞上下文的CBOW相似，矩陣 $W$ 的更新公式爲 ${v^{(new)}_{w_I}}={v^{(old)}_{w_I}}-\eta·EH^T$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

word2vec學習筆記之CBOW和skip-gram

文章目錄

1. Continuous Bag-of-Word Model(CBOW)

1.1 One-word context（一個詞的上下文）

1.2 Multi-word context(多個詞的上下文)

2. Skip-gram model

ollama使用

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

TiDB Vector 太香啦：以圖搜圖初體驗！

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

word2vec學習筆記之CBOW和skip-gram

word2vec學習筆記之文本向量化概述

Google Python Style Guide學習筆記

批歸一化Batch Normalization學習筆記

受限玻爾茲曼機與深度信念網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結