通俗易懂之詞袋模型

  • 簡單實例:

假設有兩句話:

第一句:I love HongKong.

第二句:I love China.

根據這兩句話,構建一個詞典:{I:1,love:2,HongKong:3,China:4}

根據句子中的單詞在字典中是否出現用1/0表示(出現用1,不出現則用0表示),出現了的,還要看出現了多少次。

所以,上面兩句話的二進制向量表示爲:

第一句:1,1,1,0(因爲在第一句話中,沒有China,所以第四位是0)

第二句:1,1,0,1(因爲在第二句話中,沒有出現HongKong,所以第三位是0)

  • 複雜一點實例:

假設有兩句話:

第一句:I love HongKong and China.

第二句:I love China, so I love HongKong

現在構建的詞典:{I:1 ,love:2, HongKong:3, and:4, China:5, so:6}

所以,上面兩句話的二進制向量表示爲:

第一句:1,1,1,1,1,0(第一句話沒有出現so這個單詞,所以最後一位是0)

第二句:2,2,1,0,1,1(第二句話中I和love都出現了2次,且沒有出現and這個單詞,所以前兩位是2,第四位是0)

  • 結語:

主要是要抓住是如何把詞語轉換爲數字的,因爲傳入到神經網絡進行訓練的時候,只能是數值,所以很多時候會把文本向量化。這是其中的一種方式,目前最流行的是Word2Vec,也就是把詞語轉換爲詞向量。但是有時候閱讀論文的時候,還是會碰到這個詞袋模型,瞭解一下還是很有必要的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章