cs224n----高級詞向量

  • SGD和詞向量。
  • 但每個窗口最多隻有2m + 1個單詞,對於目標函數求梯度矩陣,會很稀疏。
  • 實際上有正確答案需要去對比的只有窗口中的詞語。所以每次更新只更新WW矩陣中的少數列,或者爲每個詞語建立到詞向量的哈希映射。
  • word2vec通過把相似的詞語放到同一個地方附近來增大目標函數。
  • 共現矩陣存在的問題:當出現新詞的時候;以前的舊向量連維度都得改變高緯度(詞表大小);高稀疏性。
  • 解決共現矩陣的問題:低維向量,SVD降維。

推薦博客:http://www.hankcs.com/nlp/cs224n-advanced-word-vector-representations.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章