cs224n----高级词向量

  • SGD和词向量。
  • 但每个窗口最多只有2m + 1个单词,对于目标函数求梯度矩阵,会很稀疏。
  • 实际上有正确答案需要去对比的只有窗口中的词语。所以每次更新只更新WW矩阵中的少数列,或者为每个词语建立到词向量的哈希映射。
  • word2vec通过把相似的词语放到同一个地方附近来增大目标函数。
  • 共现矩阵存在的问题:当出现新词的时候;以前的旧向量连维度都得改变高纬度(词表大小);高稀疏性。
  • 解决共现矩阵的问题:低维向量,SVD降维。

推荐博客:http://www.hankcs.com/nlp/cs224n-advanced-word-vector-representations.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章