Python中文分词库——jieba的用法

1.介绍

jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个单词，这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库，需要通过安装来使用它。

jieba库提供了三种分词模式，但实际上要达到分词效果只要掌握一个函数就足够了，非常的简单有效。

安装第三方库需要使用pip工具，在命令行下运行安装命令（不是IDLE）。注意：需要将Python目录和其目录下的Scripts目录加到环境变量中。

使用命令pip install jieba安装第三方库，安装之后会提示successfully installed，告知是否安装成功。

分词原理：
简单来说，jieba库是通过中文词库的方式来识别分词的。它首先利用一个中文词库，通过词库计算汉字之间构成词语的关联概率，所以通过计算汉字之间的概率，就可以形成分词的结果。当然，除了jieba自带的中文词库，用户也可以向其中增加自定义的词组，从而使jieba的分词更接近某些具体领域的使用。

2.使用说明

jieba分词有三种模式：精确模式、全模式和搜索引擎模式。

简单说，精确模式就是把一段文本精确的切分成若干个中文单词，若干个中文单词之间经过组合就精确的还原为之前的文本，其中不存在冗余单词。精确模式是最常用的分词模式。

进一步jieba又提供了全模式，全模式是把一段中文文本中所有可能的词语都扫描出来，可能有一段文本它可以切分成不同的模式或者有不同的角度来切分变成不同的词语，那么jieba在全模式下把这样的不同的组合都挖掘出来，所以如果用全模式来进行分词，分词的信息组合起来并不是精确的原有文本，会有很多的冗余。

而搜索引擎模式更加智能，它是在精确模式的基础上对长词进行再次切分，将长的词语变成更短的词语，进而适合搜索引擎对短词语的索引和搜索，在一些特定场合用的比较多。

jieba库提供的常用函数：

jieba.lcut(s)

精确模式，能够对一个字符串精确地返回分词结果，而分词的结果使用列表形式来组织。例如：

>>> import jieba
>>> jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 2.489 seconds.
Prefix dict has been built successfully.
['中国', '是', '一个', '伟大', '的', '国家']

jieba.lcut(s,cut_all=True)

全模式，能够返回一个列表类型的分词结果，但结果存在冗余。例如：

>>> import jieba #Python小白学习交流群：725638078
>>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']

jieba.lcut_for_search(s)

搜索引擎模式，能够返回一个列表类型的分词结果，也存在冗余。例如：

>>> import jieba
>>> jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

jieba.add_word(w)

向分词词库添加新词w

最重要的就是jieba.lcut(s)函数，完成精确的中文分词。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python中文分词库——jieba的用法

1.介绍

2.使用说明

.Net 8.0 下的新RPC，IceRPC之试试的新玩法"打洞"

完美替代postman的软件

Vue mockjs mock.js

关于游戏付费的一点想法

我通过CKA和CKS啦！

安装chromadb注意事项

《最新出炉》系列入门篇-Python+Playwright自动化测试-42-强大的可视化追踪利器Trace Viewer

大数据怎么学？对大数据开发领域及岗位的详细解读，完整理解大数据开发领域技术体系

用Python程序如何捕獲Ctrl+C終止信號？

Python中容易被忽略的內置類型

Python教程：return和yield的區別

Python：文件操作詳細教程

Python解壓序列

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結