詞的過濾

詞過濾

對於NLP的應用,我們通常先把停用詞出現頻率很低的詞彙進行過濾;這其實類似於特徵選擇過程。

去掉停用詞

在英文裏,比如"the",'in","theirs"這些都可以作爲停用詞來處理。但是,也要考慮自己的應用場景。

去掉低頻詞

出現頻率特別低的詞彙對分析作用不大,所以一般也會去掉。把停用詞、出現頻率低的詞過濾之後,就可以得到一個詞句。

詞幹提取

stemming

  • went,go,going —— go
  • fiy,flies —— fli
  • deny,denied,denying —— deni
  • fast,faster,fastest —— fast

stemming不能保證把單詞還原爲有效的原型,例如上面的fli和deni,這是stemming的特點。stemming中有一個非常著名的算法叫PorterStemmer。

在這裏插入圖片描述

上圖是Porter Stemmer的一個簡單思路:
在step 1a中,對於以sses結尾的單詞,則改成ss。這相當於寫了很多規則,把符合某種規則的後綴改爲另一種形式的後綴。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章