jieba分詞的停用詞問題

去掉停用詞一般要自己寫個去除的函數(def....),一般的思想是先分好詞,然後看看分的詞在不在停用詞表中,在就remove,最後呈現的結果就是去掉停用詞的分詞結果。

後來找到一個jieba.analyse.set_stop_words(filename),以爲可以直接設置一下停用詞文件分詞時就自動給我去除了,沒想到分詞的結果根本沒有任何改變!

找了半天資料,又看了下jieba包裏analyse文件夾裏的各py文件,發現這個是爲了作關鍵詞提取用的,也就是:

用jieba.analyse.extract_tags時,設置jieba.analyse.set_stop_words纔有用!
用jieba.lcut時,設置jieba.analyse.set_stop_words根本沒有用!

比較了一下二者的最後結果,關鍵詞提取的結果是簡潔明瞭而且囊括了不少關鍵詞,但是還是有些詞沒有包括進來,所以,如果想去除停用詞+較爲全面的分詞結果,還是老老實實的自己寫方法吧!

最後再附上比較全的一個停用詞表:

https://github.com/goto456/stopwords

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章