詞過濾
對於NLP的應用,我們通常先把停用詞、出現頻率很低的詞彙進行過濾;這其實類似於特徵選擇過程。
去掉停用詞
在英文裏,比如"the",'in","theirs"這些都可以作爲停用詞來處理。但是,也要考慮自己的應用場景。
去掉低頻詞
出現頻率特別低的詞彙對分析作用不大,所以一般也會去掉。把停用詞、出現頻率低的詞過濾之後,就可以得到一個詞句。
詞幹提取
stemming
- went,go,going —— go
- fiy,flies —— fli
- deny,denied,denying —— deni
- fast,faster,fastest —— fast
stemming不能保證把單詞還原爲有效的原型,例如上面的fli和deni,這是stemming的特點。stemming中有一個非常著名的算法叫PorterStemmer。
上圖是Porter Stemmer的一個簡單思路:
在step 1a中,對於以sses結尾的單詞,則改成ss。這相當於寫了很多規則,把符合某種規則的後綴改爲另一種形式的後綴。