一、中文分詞的概念:
二、中文分詞的方法:
三、中文分詞的工具:jieba
https://github.com/fxsjy/jieba
- 特點
(1)支持三種分詞模式:
【精確模式】試圖將句子最精確地切開,適合文本分析;
【全模式】把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
【搜索引擎模式】在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞。
(2)支持繁體分詞
(3)支持自定義詞典
(4)MIT 授權協議
主要功能:
1、分詞(要重點學習的)
2、添加自定義詞典
3、關鍵詞提取
4、詞性標註
5、並行分詞
6、返回詞語在原文的起止位置
7、ChineseAnalyzer for Whoosh 搜索引擎
8、命令行分詞