- SGD和詞向量。
- 但每個窗口最多隻有2m + 1個單詞,對於目標函數求梯度矩陣,會很稀疏。
- 實際上有正確答案需要去對比的只有窗口中的詞語。所以每次更新只更新WW矩陣中的少數列,或者爲每個詞語建立到詞向量的哈希映射。
- word2vec通過把相似的詞語放到同一個地方附近來增大目標函數。
- 共現矩陣存在的問題:當出現新詞的時候;以前的舊向量連維度都得改變高緯度(詞表大小);高稀疏性。
- 解決共現矩陣的問題:低維向量,SVD降維。
推薦博客:http://www.hankcs.com/nlp/cs224n-advanced-word-vector-representations.html