對數據進行預處理時,一般需要對類別型特徵進行編碼:
- 序號編碼
- 獨熱編碼
- 二進制編碼
其中獨熱編碼用的是最多的。但是當類別數十分巨大時,獨熱編碼是一個非常稀疏的向量,只有一個值不爲0,其他值均爲0。可以使用向量的稀疏表示來大大的節省空間,並且目前大多數的算法都接受稀疏向量形式的輸入。
舉個例子:
對於向量 ,其稀疏表示爲
10代表的長度,表示非零元素的下標,表示非零元素的值。
對數據進行預處理時,一般需要對類別型特徵進行編碼:
其中獨熱編碼用的是最多的。但是當類別數十分巨大時,獨熱編碼是一個非常稀疏的向量,只有一個值不爲0,其他值均爲0。可以使用向量的稀疏表示來大大的節省空間,並且目前大多數的算法都接受稀疏向量形式的輸入。
舉個例子:
v=[0,0,0,0,1,0,3,0,0,0]
對於向量 v,其稀疏表示爲
(10,[4,6],[1,3])
10代表v的長度,[4,6]表示非零元素的下標,[1,3]表示非零元素的值。
Bag-of-Words 1.文字問題 2. 什麼是Bag-of-Words(具體例子) 3. 侷限性 1.文字問題 文本建模的一個問題是它很雜亂,機器學習算法之類的技術更喜歡定義明確的
講解的很清楚: https://www.cnblogs.com/wangguchangqing/p/12021638.html