NLP筆記 CS224n （2） —— 詞向量與詞傳感器

傳送門

Word2Vec

梯度下降，隨機梯度下降。

實質上是無監督學習，每個batch的最小單位可以是一組word2word的映射，輸入值是一箇中心詞，輸出值是一個其對應的outside詞，要學習是從中心詞要其對於outside詞的映射，訓練結束後只需要過程中的隱藏層信息，即詞向量。

一個詞要兩個向量的原因？
- 爲了更容易優化，但是一個也行
- 事後可以對兩個向量取平均值
兩種變種模型
- Skip Grams 即由中心詞預測上下文（第一節課所述模型即SG）
- Continunous Bag of Words 即由上下文推測中心詞
Negative Sampling 負採樣
- 每個訓練sample只有一個輸出爲1，剩下的都爲0，所以只需要選取 $K$ 個 0 輸出點（即其對應的outside詞向量）進行更新即可，如
  $J_{neg-sample}(o,v_c,U)=-\log(\sigma(u_o^Tv_c))-\sum_{k=1}^K\log(\sigma(-u_k^Tv_c))$
  其中 $\sigma$ 表示sigmoid函數。這樣就可以將一個多分類問題變成一個二分類問題來處理。

即將上一章中的無向完全圖用矩陣表示寫出，問題明顯，即過於稀疏，體積過大，魯棒性差

Solution：只儲存那些更重要的信息，壓縮維度，類似WORD2VEC

對共現矩陣做奇異值分解，再重新組合，形成一個更小的矩陣

Update: 將出現次數特別多的詞，如the，he，has 單獨處理

內部方法：規定一箇中間方法，在詞向量應用算法得到另一個詞之後，我們對比詞向量得到的詞是否與我們人爲規定的詞相符。我們統計其預測的正確率，以此來代表詞向量的好壞。
外部方法：用一個真正的NLP任務來評價

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.