Negative Sampling 負採樣詳解

在word2vec中，爲了簡化訓練的過程，經常會用到Negative Sampling負採樣這個技巧，這個負採樣到底是怎麼樣的呢？之前在我的博文 word2vec算法理解和數學推導中對於word2vec有了很詳細的數學推導，這裏主要講解一下負採樣是如何降低word2vec的複雜度的。
首先我們直接寫出word2vec的目標函數，假設有一句話： $query = {w_1},{w_2},{w_3},..,{w_n}$ ，由n個詞組成的一句話，我們需要最大化窗口中上下文詞的概率：
$\arg \mathop {\max }\limits_\theta \prod\limits_{w \in query} {\prod\limits_{c \in c(w)} {P(c|w;\theta )} }$
這裏的 $c(w)$ 表示中心詞的context words，我們在計算的時候，可以把相乘的元素轉換成對數函數：
$\arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {P(c|w;\theta )} }$
我們把概率函數可以進行展開就可以得到：
$\arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {\log \frac{{{e^{{u_c} \cdot {v_w}}}}}{{\sum\limits_{c' \in vocab} {{e^{{u_{c'}} \cdot {v_w}}}} }}} }$
這個式子可以表示成：
$\arg \mathop {\max }\limits_\theta \sum\limits_{w \in query} {\sum\limits_{c \in c(w)} {({e^{{u_c} \cdot {v_w}}} - \log \sum\limits_{c' \in vocab} {{e^{{u_{c'}} \cdot {v_w}}}} )} }$
我們可以看到這個式子第二項，因爲 $c'$ 要遍歷整個詞庫，所以複雜度非常高，所以我們要簡化這一步的計算，減小運算的複雜度。這裏的 $u_c$ 表示 $c$ 的上下文向量， $v_w$ 表示中心詞 $w$ 的向量。
爲了減小上述表達式的複雜度，我們不妨改變一下上述概率的表達方式，原來的 $p({w_i}|{w_j})$ 表示以 $w_j$ 爲中心詞的時候 $w_i$ 出現的概率，這裏我們用 $p(D = 1|{w_i},{w_j};\theta )$ 表示 $w_i$ 和 $w_j$ 作爲上下文詞出現的概率， $p(D = 0|{w_i},{w_j};\theta )$ 表示 $w_i$ 和 $w_j$ 不作爲上下文詞出現的概率。
由上述新的表達式可以寫出新的目標函數：
$\arg \mathop {\max }\limits_\theta \prod\limits_{(w,c) \in D} {p(D = 1|w,c;\theta )\prod\limits_{(w,c) \in \tilde D} {p(D = 0|w,c;\theta )} }$
這裏的 $D$ 表示上下文詞的集合， $\tilde D$ 表示非上下文的集合，我們來舉一個例子，這裏有一句話：“川建國同志是一名優秀的黨員”，這句話分詞去停之後變成： 川建國同志一名優秀黨員。那麼 $D$ 表示上下文集合，我們假設 window size爲1，那麼可以寫出：
$D$ = {(川建國，同志)，(同志，川建國)，(同志，一名)，(一名，同志)，(一名，優秀)，(優秀，一名)，(優秀，黨員)}
$\tilde D$ = {(川建國，一名)，(川建國，優秀)，(川建國，黨員)，(同志，優秀)，(同志，黨員)，(一名，川建國)，(一名，黨員)，(優秀，川建國)，(優秀，同志)，(黨員，川建國)，(黨員，同志)，(黨員，一名)}。
上述的 $D$ 表示正樣本， $\tilde D$ 表示負樣本。我們可以繼續表示上述的目標函數，我們可以吧正負樣本的概率表示成softmax的表達形式：
$\arg \mathop {\max }\limits_\theta \prod\limits_{(w,c) \in D} {\frac{1}{{1 + {e^{ - {u_c} \cdot {v_w}}}}}\prod\limits_{(w,c) \in \tilde D} {(1 - \frac{1}{{1 + {e^{ - {u_c} \cdot {v_w}}}}})} } = \arg \mathop {\max }\limits_\theta \sum\limits_{(w,c) \in D} {\log \sigma ({u_c} \cdot {v_w})} + \sum\limits_{(w,c) \in \tilde D} {\log \sigma ( - {u_c} \cdot {v_w})}$
在詞庫數量級爲 $10^5$ 的時候，正樣本加負樣本 $\tilde D$ 的數量級可以達到 $10^{10}$ 左右，裏面絕大部分都是負樣本，所以我們需要降低負樣本計算中的時間複雜度，這就是Negative Sampling 負採樣的核心。負採樣就是對於一箇中心詞，我們從中心詞對應的負樣本中隨機抽取幾組來做梯度下降。還是川建國的例子，對於正樣本（川建國，同志），我們隨機抽取負樣本（川建國，一名），（川建國，黨員）來做訓練，不用全部的負樣本都拿來訓練，這就是負採樣，減小了計算的複雜度。所以，上述的目標函數可以寫成：
$\approx \arg \mathop {\max }\limits_\theta \sum\limits_{(w,c) \in D} {[\log \sigma ({u_c} \cdot {v_w}) + \sum\limits_{c' \in N(w)} {\log \sigma ( - {u_{c'}} \cdot {v_w})} ]}$
從上述表達式可以看出，負樣本我們不需要取所有的都拿來訓練，我們只需要每個中心詞抽幾個負樣本就可以了，這樣可以大大降低計算的複雜度。這就是word2vec訓練過程中的Negative Sampling 負採樣技巧，可以大大減小梯度下降的時間複雜度，這就有點像SGD隨機梯度下降，就是隨機一個樣本進行梯度下降，大體的方向還是朝着最低點下降。
接着我來解答一下上述這個表達式，一起來看看是如何進行梯度下降的，首先我們假設：
$L(\theta ) = \log \sigma ({u_c} \cdot {v_w}) + \sum\limits_{c' \in N(w)} {\log \sigma ( - {u_{c'}} \cdot {v_w})}$
接下來我們需要對該表達式求偏導：
$\frac{{\partial L(\theta )}}{{\partial {u_c}}} = \frac{{\sigma ({u_c} \cdot {v_w})[1 - \sigma ({u_c} \cdot {v_w})] \cdot {v_w}}}{{\sigma ({u_c} \cdot {v_w})}} = [1 - \sigma ({u_c} \cdot {v_w})] \cdot {v_w}$
$\frac{{\partial L(\theta )}}{{\partial {u_{c'}}}} = \frac{{\sigma ( - {u_{c'}} \cdot {v_w})[1 - \sigma ( - {u_{c'}} \cdot {v_w})] \cdot ( - {v_w})}}{{\sigma ( - {u_{c'}} \cdot {v_w})}} = [\sigma ({u_{c'}} \cdot {v_w}) - 1] \cdot {v_w}$
$\frac{{\partial L(\theta )}}{{\partial {v_w}}} = \frac{{\sigma ({u_c} \cdot {v_w})[1 - \sigma ({u_c} \cdot {v_w})] \cdot {u_c}}}{{\sigma ({u_c} \cdot {v_w})}} + \sum\limits_{c' \in N(w)} {\frac{{\partial ( - {u_{c'}} \cdot {v_w})[1 - \sigma ( - {u_{c'}} \cdot {v_w})] \cdot ( - {u_{c'}})}}{{\partial ( - {u_{c'}} \cdot {v_w})}} = [1 - \sigma ({u_c} \cdot {v_w})] \cdot {u_c} + \sum\limits_{c' \in N(w)} {[\sigma ( - {u_{c'}} \cdot {v_w}) - 1] \cdot {u_{c'}}} }$
然後整體的梯度下降可以表示成：
${u_c}: = {u_c} + \eta \frac{{\partial L(\theta )}}{{\partial {u_c}}}$
${u_{c'}}: = {u_{c'}} + \eta \frac{{\partial L(\theta )}}{{\partial {u_{c'}}}}$
${v_w}: = {v_w} + \eta \frac{{\partial L(\theta )}}{{\partial {v_w}}}$
這就是word2vec訓練過程中的負採樣技巧，希望可以通過細緻的講解能夠幫助大家深刻地理解負採樣，碼字不易，如有轉載請註明出處，文中如有紕漏，也請各位讀者不吝指教，謝謝。

Negative Sampling 負採樣詳解

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

搭建一個簡易的醫療導診系統

中文詞性標註詳解

如何訓練一個詞向量

中文情感分析

中文命名實體識別NER詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結