通俗易懂之詞袋模型

假設有兩句話：

第一句：I love HongKong.

第二句：I love China.

根據這兩句話，構建一個詞典：{I:1,love:2,HongKong:3,China:4}

根據句子中的單詞在字典中是否出現用1/0表示（出現用1，不出現則用0表示），出現了的，還要看出現了多少次。

所以，上面兩句話的二進制向量表示爲：

第一句：1,1,1,0（因爲在第一句話中，沒有China，所以第四位是0）

第二句：1,1,0,1（因爲在第二句話中，沒有出現HongKong，所以第三位是0）

假設有兩句話：

第一句：I love HongKong and China.

第二句：I love China, so I love HongKong

現在構建的詞典：{I:1 ,love:2, HongKong:3, and:4, China:5, so:6}

所以，上面兩句話的二進制向量表示爲：

第一句：1,1,1,1,1,0（第一句話沒有出現so這個單詞，所以最後一位是0）

第二句：2,2,1,0,1,1（第二句話中I和love都出現了2次，且沒有出現and這個單詞，所以前兩位是2，第四位是0）

主要是要抓住是如何把詞語轉換爲數字的，因爲傳入到神經網絡進行訓練的時候，只能是數值，所以很多時候會把文本向量化。這是其中的一種方式，目前最流行的是Word2Vec，也就是把詞語轉換爲詞向量。但是有時候閱讀論文的時候，還是會碰到這個詞袋模型，瞭解一下還是很有必要的。