2020-05-29 nlp_01之停用詞過濾、stemming

停用詞

把停用詞、出現頻率很低的詞彙過濾掉。

原因:經常出現的或者頻率很低的詞,並沒有實際意義的詞,可以認爲是噪聲,會影響模型的判斷,給模型帶來一定的影響

目的:篩選出價值比較高的特徵,可以把停用詞理解成價值比較小的特徵,可以忽略不計

例子:

英文: the  an  their

中文:的 啊 好 很好 等

同樣也得根據具體的場景進行判斷

對於情感分析的詞:好,很好 是需要保留的

建議使用:已有的停用詞庫(如:NLTK),然後刪除自己認爲有用的詞語

篩選規則: 將文本彙總分詞之後, 篩選出頻次小於10, 20,適當選擇

 

stemming 

英文中: 還原或合併操作

如:went   go   going   把同樣意義的詞,還原成一個單詞。會提升一定的

實現思路:

制定規則(語言學家去找規則,程序員負責設計)

如: sses  ------  ss     ies--------i        s------去掉      (*v*)ing-------去掉ing

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章