jieba库
jieba库:
利用一个中文词库,确定中文字符之间的关联概率
中文字符间概率大的组成词组,形成分词结果
jieba库分词的三种模式:精确模式、全模式、搜索引擎模式
精确模式:把文本精确的切分开,不存在冗余单词
全模式:把文本中所有可能的词语都扫描出来,有冗余
搜索引擎模式:在精确模式的基础上,对长词再次切分
常用函数:
jieba.lcut(s):精确模式,返回一个列表类型的分词结果
jieba.lcut(s,cut_all=True):全模式,返回一个列表类型的分词结果,存在冗余
jieba.lcut_for_search(s):搜索引擎模式,返回一个列表类型的分词结果,存在冗余
jieba.add_word(w):向分词词典增加新词w
利用一个中文词库,确定中文字符之间的关联概率
中文字符间概率大的组成词组,形成分词结果
jieba库分词的三种模式:精确模式、全模式、搜索引擎模式
精确模式:把文本精确的切分开,不存在冗余单词
全模式:把文本中所有可能的词语都扫描出来,有冗余
搜索引擎模式:在精确模式的基础上,对长词再次切分
常用函数:
jieba.lcut(s):精确模式,返回一个列表类型的分词结果
jieba.lcut(s,cut_all=True):全模式,返回一个列表类型的分词结果,存在冗余
jieba.lcut_for_search(s):搜索引擎模式,返回一个列表类型的分词结果,存在冗余
jieba.add_word(w):向分词词典增加新词w
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
乱序拼图验证的识别并还原 puzzle-captcha(开源)
S.F.
2021-12-01 00:53:28
【转载】Python处理csv文件
zqh
2020-07-18 14:25:30
Error:field larger than field limit(131072)解决方法
hammring
2020-07-08 12:39:29
启动Jupyter时, 遇到 sudo: jupyterhub: command not found 问题的解决方案
钢琴线与小刀
2020-07-08 12:39:19
Python小记 —— 文件读写操作里read()方法的深究
柘月十七
2020-07-08 12:33:27
python使用pip指令安装并引用第三方模块及注意事项
柘月十七
2020-07-08 12:33:27
python小记 —— sys.argv
柘月十七
2020-07-08 12:33:16
Django Signals 信号
冯斯特罗
2020-07-08 12:31:35
sorted 在python2和3中的区别
冯斯特罗
2020-07-08 12:31:35
python3 排序 sort sorted
冯斯特罗
2020-07-08 12:31:35
python3 super 用法2
class MetaCls(type): def __new__(cls, *args, **kwargs): print("in MetaCls") # return super(Meta
冯斯特罗
2020-07-08 12:31:35
meta class 和 类装饰器的执行顺序
冯斯特罗
2020-07-08 12:31:35
弱引用 weakref
冯斯特罗
2020-07-08 12:31:35
python神级数据结构namedtuple
冯斯特罗
2020-07-08 12:31:35