jieba

jieba

"結巴"中文分詞：做最好的Python中文分詞組件 "Jieba"

Feature

支持三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文本分析；
- 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
- 搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。
支持繁體分詞
支持自定義詞典

Python 2.x 下的安裝

全自動安裝：easy_install jieba 或者 pip install jieba
半自動安裝：先下載http://pypi.python.org/pypi/jieba/ ，解壓後運行python setup.py install
手動安裝：將jieba目錄放置於當前目錄或者site-packages目錄
通過import jieba 來引用（第一次import時需要構建Trie樹，需要幾秒時間）

Python 3.x 下的安裝

目前master分支是隻支持Python2.x 的

Python3.x 版本的分支也已經基本可用： https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

Algorithm

基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合
對於未登錄詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi算法

功能 1)：分詞

jieba.cut方法接受兩個輸入參數: 1) 第一個參數爲需要分詞的字符串 2）cut_all參數用來控制是否採用全模式
jieba.cut_for_search方法接受一個參數：需要分詞的字符串,該方法適合用於搜索引擎構建倒排索引的分詞，粒度比較細
注意：待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator，可以使用for循環來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化爲list

代碼示例( 分詞 )

#encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") #默認是精確模式
print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造") #搜索引擎模式
print ", ".join(seg_list)

Output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈    (此處，“杭研”並沒有在詞典中，但是也被Viterbi算法識別出來了)

【搜索引擎模式】： 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

功能 2) ：添加自定義詞典

開發者可以指定自己自定義的詞典，以便包含jieba詞庫裏沒有的詞。雖然jieba有新詞識別能力，但是自行添加新詞可以保證更高的正確率
用法： jieba.load_userdict(file_name) # file_name爲自定義詞典的路徑
詞典格式和dict.txt一樣，一個詞佔一行；每一行分三部分，一部分爲詞語，另一部分爲詞頻，最後爲詞性（可省略），用空格隔開
範例：
- 之前：李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /
- 加載自定義詞庫後：　李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲計算 / 方面 / 的 / 專家 /
- 自定義詞典：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
- 用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
"通過用戶自定義詞典來增強歧義糾錯能力" --- https://github.com/fxsjy/jieba/issues/14

功能 3) ：關鍵詞提取

jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
setence爲待提取的文本
topK爲返回幾個TF/IDF權重最大的關鍵詞，默認值爲20

代碼示例（關鍵詞提取）

https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

功能 4) : 詞性標註

標註句子分詞後每個詞的詞性，採用和ictclas兼容的標記法

用法示例

>>> import jieba.posseg as pseg
>>> words =pseg.cut("我愛北京天安門")
>>> for w in words:
...    print w.word,w.flag
...
我 r
愛 v
北京 ns
天安門 ns

功能 5) : 並行分詞

原理：將目標文本按行分隔後，把各行文本分配到多個python進程並行分詞，然後歸併結果，從而獲得分詞速度的可觀提升
基於python自帶的multiprocessing模塊，目前暫不支持windows
用法：
- jieba.enable_parallel(4) # 開啓並行分詞模式，參數爲並行進程數
- jieba.disable_parallel() # 關閉並行分詞模式
例子： https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
實驗結果：在4核3.4GHz Linux機器上，對金庸全集進行精確分詞，獲得了1MB/s的速度，是單進程版的3.3倍。

功能 6) : Tokenize：返回詞語在原文的起始位置

注意，輸入參數只接受unicode
默認模式

result = jieba.tokenize(u'永和服裝飾品有限公司')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限公司            start: 6                end:10

搜索模式

result = jieba.tokenize(u'永和服裝飾品有限公司',mode='search')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限                start: 6                end:8
word 公司                start: 8                end:10
word 有限公司            start: 6                end:10

功能 7) : ChineseAnalyzer for Whoosh搜索引擎

引用： from jieba.analyse import ChineseAnalyzer
用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py

其他詞典

佔用內存較小的詞典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
支持繁體分詞更好的詞典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big

下載你所需要的詞典，然後覆蓋jieba/dict.txt 即可或者用jieba.set_dictionary('data/dict.txt.big')

模塊初始化機制的改變:lazy load （從0.28版本開始）

jieba採用延遲加載，"import jieba"不會立即觸發詞典的加載，一旦有必要纔開始加載詞典構建trie。如果你想手工初始jieba，也可以手動初始化。

import jieba
jieba.initialize() #手動初始化（可選）

在0.28之前的版本是不能指定主詞典的路徑的，有了延遲加載機制後，你可以改變主詞典的路徑:

jieba.set_dictionary('data/dict.txt.big')

例子： https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py

分詞速度

1.5 MB / Second in Full Mode
400 KB / Second in Default Mode
Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《圍城》.txt

常見問題

1）模型的數據是如何生成的？https://github.com/fxsjy/jieba/issues/7

2）這個庫的授權是? https://github.com/fxsjy/jieba/issues/2

jieba 詳細介紹

原文：https://github.com/fxsjy/jieba

jieba

Feature

Python 2.x 下的安裝

Python 3.x 下的安裝

Algorithm

功能 1)：分詞

功能 2) ：添加自定義詞典

功能 3) ：關鍵詞提取

功能 4) : 詞性標註

功能 5) : 並行分詞

功能 6) : Tokenize：返回詞語在原文的起始位置

功能 7) : ChineseAnalyzer for Whoosh搜索引擎

其他詞典

模塊初始化機制的改變:lazy load （從0.28版本開始）

分詞速度

常見問題

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

docker入門

shell命令行&&、||和，的使用方法

機器學習：什麼是欠擬合和過擬合

xgboost: Higgs Boson Machine Learning Challenge

極大似然估計和貝葉斯決策詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結