中文分詞學習筆記一:jieba分詞介紹

一、中文分詞的概念:

二、中文分詞的方法:

三、中文分詞的工具:jieba

https://github.com/fxsjy/jieba

  • 特點

(1)支持三種分詞模式:

【精確模式】試圖將句子最精確地切開,適合文本分析;
【全模式】把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
【搜索引擎模式】在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞。
(2)支持繁體分詞

(3)支持自定義詞典

(4)MIT 授權協議

主要功能:

1、分詞(要重點學習的)

2、添加自定義詞典

3、關鍵詞提取

4、詞性標註

5、並行分詞

6、返回詞語在原文的起止位置

7、ChineseAnalyzer for Whoosh 搜索引擎

8、命令行分詞

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章