- SGD和词向量。
- 但每个窗口最多只有2m + 1个单词,对于目标函数求梯度矩阵,会很稀疏。
- 实际上有正确答案需要去对比的只有窗口中的词语。所以每次更新只更新WW矩阵中的少数列,或者为每个词语建立到词向量的哈希映射。
- word2vec通过把相似的词语放到同一个地方附近来增大目标函数。
- 共现矩阵存在的问题:当出现新词的时候;以前的旧向量连维度都得改变高纬度(词表大小);高稀疏性。
- 解决共现矩阵的问题:低维向量,SVD降维。
推荐博客:http://www.hankcs.com/nlp/cs224n-advanced-word-vector-representations.html