jieba分詞的停用詞問題

原創

2020-02-24 09:08

去掉停用詞一般要自己寫個去除的函數(def....)，一般的思想是先分好詞，然後看看分的詞在不在停用詞表中，在就remove，最後呈現的結果就是去掉停用詞的分詞結果。

後來找到一個jieba.analyse.set_stop_words(filename)，以爲可以直接設置一下停用詞文件分詞時就自動給我去除了，沒想到分詞的結果根本沒有任何改變！

找了半天資料，又看了下jieba包裏analyse文件夾裏的各py文件，發現這個是爲了作關鍵詞提取用的，也就是：

用jieba.analyse.extract_tags時，設置jieba.analyse.set_stop_words纔有用！

用jieba.lcut時，設置jieba.analyse.set_stop_words根本沒有用！

比較了一下二者的最後結果，關鍵詞提取的結果是簡潔明瞭而且囊括了不少關鍵詞，但是還是有些詞沒有包括進來，所以，如果想去除停用詞+較爲全面的分詞結果，還是老老實實的自己寫方法吧！

最後再附上比較全的一個停用詞表：

https://github.com/goto456/stopwords

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

bigqwu

谷歌api驗證 export GOOGLE_APPLICATION_CREDENTIALS="/home/user/Downloads/[FILE_NAME].json" ssh-rsa AAAAB3NzaC1yc2EAAAAD

2020-07-07 19:12:32

pandas apply lamba

import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex','Bob','Nancy','Mary','Alice','Jerr

2020-07-07 19:12:31

python 操作微信定時發信息

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on Mon Jul 6 11:52:20 2020 @author: lg """ # 導入模塊 fro

2020-07-07 19:12:31

python 任務計時器　apscheduler.schedulers

crontab 真的不好用 import pandas as pd import subprocess import os import time from datetime import datetime from apsche

2020-07-07 19:12:31

用Openpyxl做兩個Excel文件的比對

最近老是要做比對Report的工作，有個想法寫個Python小程序來比對兩個文件。以前只用過xlrd庫，處理的是xls文件，做一些簡單的數據處理這次在寫小工具的同時也學習一下新的東西由於報表是Office 2007類型（也就是Xl

2020-07-06 11:55:41

漢諾塔遞歸我理解不了怎麼辦

''' 漢諾塔——藉助B柱，將A柱的所有盤子移動到C柱上，期間小的盤子永遠在上面，一次只能移動一個盤子 ''' # 觀察問題： # 1.如果只有 1 個盤子A——>C # 2.如果有大於等於 2 個盤子，我們總可以把它們看成是 2

2020-07-06 01:13:00

10.高階函數、閉包和裝飾器

1.高階函數接收函數作爲參數 # 高階函數——接收函數作爲參數，或接收函數作爲返回值 # 定義一個函數將列表中所有的偶數保存到一個新的列表中 lst1 = [1, 2, 3, 4, 5, 6, 7, 8] # 高階函數 #

2020-07-06 01:13:00

python 學習筆記之string

在編程中，幾乎90%以上的代碼都是關於整數或字符串操作，所以與整數一樣，Python 的字符串實現也使用了許多拿優化技術，使得字符串的性能達到極致。與C++ 標準庫(STL)中的 std::string 不同，python字符串集合了許

2020-07-02 17:24:20

python 學習筆記之字典

創建方法一: >>> dict1 = {} >>> dict2 = {'name': 'earth', 'port': 80} >>> dict1, dict2 ({}, {'port': 80, 'name': 'earth'}

2020-07-02 17:24:20

python 學習筆記之list

創建列表 sample_list = ['a',1,('a','b')] Python 列表操作 sample_list = ['a','b',0,1,3] 得到列表中的某一個值 value_start = sample_list[

2020-07-02 17:24:20

白話文講計算機視覺-第一講-OPENCV圖片及視頻讀寫

大家好，我是小木，沒想到吧，我又回來了，啊哈哈哈。之前幾天我腸胃感冒，所以我的博客就一直沒有更新。但我小木是打不死的小強，這次繼續回來講解啦！本次課程我主講的內容是計算機視覺。爲什麼小木我要開這次課程呢？很簡單，因爲我之前讀了一本書，叫做

2020-07-02 16:47:54

模型部署方法

Flask 和 Google App Engine 部署模型服務使用方法將機器學習模型部署爲REST API（github)

2020-07-01 01:21:33

專題：NLP

基於Bert-NER構建特定領域中文信息抽取框架當Bert遇上Keras：這可能是Bert最簡單的打開姿勢基於TensorFlow實現Skip-Gram模型構建一個完整的中文智能問答系統 PaddlePaddle 做詞向量模型 S

2020-07-01 01:21:32

Python使用'input'讀取輸入文本出現NameError錯誤

在Python2.7中內置函數input()會將輸入數據當成指令，從鍵盤中輸入數據應該使用raw_input() 在Python3中input()函數用於從鍵盤中讀取數據 1 #!/usr/bin/python 2 #

2020-06-30 15:05:20

Python字符串格式化輸出

在Python可以使用字符串的format函數替換掉字符串中的{}格式化描述符號從而達到C中的printf效果示例代碼: #!/usr/bin/python3 amount = float(input("Enter amoun

2020-06-30 15:05:09

24小時熱門文章

最新文章

最新評論文章