- 簡單實例:
假設有兩句話:
第一句:I love HongKong.
第二句:I love China.
根據這兩句話,構建一個詞典:{I:1,love:2,HongKong:3,China:4}
根據句子中的單詞在字典中是否出現用1/0表示(出現用1,不出現則用0表示),出現了的,還要看出現了多少次。
所以,上面兩句話的二進制向量表示爲:
第一句:1,1,1,0(因爲在第一句話中,沒有China,所以第四位是0)
第二句:1,1,0,1(因爲在第二句話中,沒有出現HongKong,所以第三位是0)
- 複雜一點實例:
假設有兩句話:
第一句:I love HongKong and China.
第二句:I love China, so I love HongKong
現在構建的詞典:{I:1 ,love:2, HongKong:3, and:4, China:5, so:6}
所以,上面兩句話的二進制向量表示爲:
第一句:1,1,1,1,1,0(第一句話沒有出現so這個單詞,所以最後一位是0)
第二句:2,2,1,0,1,1(第二句話中I和love都出現了2次,且沒有出現and這個單詞,所以前兩位是2,第四位是0)
- 結語:
主要是要抓住是如何把詞語轉換爲數字的,因爲傳入到神經網絡進行訓練的時候,只能是數值,所以很多時候會把文本向量化。這是其中的一種方式,目前最流行的是Word2Vec,也就是把詞語轉換爲詞向量。但是有時候閱讀論文的時候,還是會碰到這個詞袋模型,瞭解一下還是很有必要的。