1. 模型框架
- CBOW模型,上下文預測中心詞,目標函數爲
- Skip-gram模型,中心詞預測上下文,目標函數爲
2. Hierarchical Softmax
藉助CBOW訓練模型,得到詞向量
2.1 CBOW模型
- 輸入層:2c個上下文context(w)的詞向量
- 投影層:2c個向量求和累加
- 輸出層:huffman樹和sigmoid函數(一開始就將詞彙建立了一個huffman樹)
從根節點到足球,共經歷四次分支,每次分支可看做是一次二分類,即將一個節點進行分類,分到左邊是負類,分到右邊是正類。
一個節點被分爲正類的概率是(後續要優化)
被分爲負類的概率是
最後的結果是將四次的分類相乘
因此,條件概率的一般公式可以寫成
其中,
或者寫成整體表達式
代入下列公式,得到
將內核表示成
上面就是CBOW模型的目標函數
目前需要做的就是將這個函數最大化,因此使用隨機梯度上升法
霍夫曼樹上每一步的