停用詞
把停用詞、出現頻率很低的詞彙過濾掉。
原因:經常出現的或者頻率很低的詞,並沒有實際意義的詞,可以認爲是噪聲,會影響模型的判斷,給模型帶來一定的影響
目的:篩選出價值比較高的特徵,可以把停用詞理解成價值比較小的特徵,可以忽略不計
例子:
英文: the an their
中文:的 啊 好 很好 等
同樣也得根據具體的場景進行判斷
對於情感分析的詞:好,很好 是需要保留的
建議使用:已有的停用詞庫(如:NLTK),然後刪除自己認爲有用的詞語
篩選規則: 將文本彙總分詞之後, 篩選出頻次小於10, 20,適當選擇
stemming
英文中: 還原或合併操作
如:went go going 把同樣意義的詞,還原成一個單詞。會提升一定的
實現思路:
制定規則(語言學家去找規則,程序員負責設計)
如: sses ------ ss ies--------i s------去掉 (*v*)ing-------去掉ing