NLP筆記 CS224n (2) —— 詞向量與詞傳感器

傳送門

Word2Vec

Optimization

梯度下降,隨機梯度下降。

實質上是無監督學習,每個batch的最小單位可以是一組word2word的映射,輸入值是一箇中心詞,輸出值是一個其對應的outside詞,要學習是從中心詞要其對於outside詞的映射,訓練結束後只需要過程中的隱藏層信息,即詞向量。

More Detials of Word2Vec

  • 一個詞要兩個向量的原因?
    • 爲了更容易優化,但是一個也行
    • 事後可以對兩個向量取平均值
  • 兩種變種模型
    • Skip Grams 即由中心詞預測上下文(第一節課所述模型即SG)
    • Continunous Bag of Words 即由上下文推測中心詞
  • Negative Sampling 負採樣
    • 每個訓練sample只有一個輸出爲1,剩下的都爲0,所以只需要選取 KK 個 0 輸出點(即其對應的outside詞向量)進行更新即可,如
      Jnegsample(o,vc,U)=log(σ(uoTvc))k=1Klog(σ(ukTvc))J_{neg-sample}(o,v_c,U)=-\log(\sigma(u_o^Tv_c))-\sum_{k=1}^K\log(\sigma(-u_k^Tv_c))
      其中 σ\sigma 表示sigmoid函數。這樣就可以將一個多分類問題變成一個二分類問題來處理。

其他方法

Co-occurrence vectors共現矩陣

即將上一章中的無向完全圖用矩陣表示寫出,問題明顯,即過於稀疏,體積過大,魯棒性差

Solution: 只儲存那些更重要的信息,壓縮維度,類似WORD2VEC

Dimensionality Reduction on X (HW1)

對共現矩陣做奇異值分解,再重新組合,形成一個更小的矩陣

Update: 將出現次數特別多的詞,如the,he,has 單獨處理

詞向量的評估

  • 內部方法:規定一箇中間方法,在詞向量應用算法得到另一個詞之後,我們對比詞向量得到的詞是否與我們人爲規定的詞相符。我們統計其預測的正確率,以此來代表詞向量的好壞。
  • 外部方法:用一個真正的NLP任務來評價
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章