去掉停用詞一般要自己寫個去除的函數(def....),一般的思想是先分好詞,然後看看分的詞在不在停用詞表中,在就remove,最後呈現的結果就是去掉停用詞的分詞結果。
後來找到一個jieba.analyse.set_stop_words(filename),以爲可以直接設置一下停用詞文件分詞時就自動給我去除了,沒想到分詞的結果根本沒有任何改變!
找了半天資料,又看了下jieba包裏analyse文件夾裏的各py文件,發現這個是爲了作關鍵詞提取用的,也就是:
用jieba.analyse.extract_tags時,設置jieba.analyse.set_stop_words纔有用!
用jieba.lcut時,設置jieba.analyse.set_stop_words根本沒有用!
比較了一下二者的最後結果,關鍵詞提取的結果是簡潔明瞭而且囊括了不少關鍵詞,但是還是有些詞沒有包括進來,所以,如果想去除停用詞+較爲全面的分詞結果,還是老老實實的自己寫方法吧!
最後再附上比較全的一個停用詞表: