傳送門
Word2Vec
Optimization
梯度下降,隨機梯度下降。
實質上是無監督學習,每個batch的最小單位可以是一組word2word的映射,輸入值是一箇中心詞,輸出值是一個其對應的outside詞,要學習是從中心詞要其對於outside詞的映射,訓練結束後只需要過程中的隱藏層信息,即詞向量。
More Detials of Word2Vec
- 一個詞要兩個向量的原因?
- 爲了更容易優化,但是一個也行
- 事後可以對兩個向量取平均值
- 兩種變種模型
- Skip Grams 即由中心詞預測上下文(第一節課所述模型即SG)
- Continunous Bag of Words 即由上下文推測中心詞
- Negative Sampling 負採樣
- 每個訓練sample只有一個輸出爲1,剩下的都爲0,所以只需要選取 個 0 輸出點(即其對應的outside詞向量)進行更新即可,如
其中 表示sigmoid函數。這樣就可以將一個多分類問題變成一個二分類問題來處理。
- 每個訓練sample只有一個輸出爲1,剩下的都爲0,所以只需要選取 個 0 輸出點(即其對應的outside詞向量)進行更新即可,如
其他方法
Co-occurrence vectors共現矩陣
即將上一章中的無向完全圖用矩陣表示寫出,問題明顯,即過於稀疏,體積過大,魯棒性差
Solution: 只儲存那些更重要的信息,壓縮維度,類似WORD2VEC
Dimensionality Reduction on X (HW1)
對共現矩陣做奇異值分解,再重新組合,形成一個更小的矩陣
Update: 將出現次數特別多的詞,如the,he,has 單獨處理
詞向量的評估
- 內部方法:規定一箇中間方法,在詞向量應用算法得到另一個詞之後,我們對比詞向量得到的詞是否與我們人爲規定的詞相符。我們統計其預測的正確率,以此來代表詞向量的好壞。
- 外部方法:用一個真正的NLP任務來評價