目錄
1、安裝和使用jieba
直接用命令:pip3 install jieba就可以了,如圖所示表示成功。
2、分詞練習
import jieba
if __name__ == '__main__':
seg_gu=jieba.cut("故宮的重要景點:乾清宮", cut_all=False)
print("Full Mode:", '/'.join(seg_gu))
結果:Prefix dict has been built successfully.
Full Mode: 故宮/的/重要/景點/:/乾/清宮
可以看到“乾清宮”在分詞時被分成了“乾”和“清宮”。這樣是不對的,怎麼辦?
3、爲jieba添加自定義的詞典
創建一個dict.txt文件,然後在文件中寫:
乾清宮 5 ns
黃琉璃瓦 4
雲計算 5
李小福 2 nr
八一雙鹿 nz
凱特琳 2 nz
修改代碼:
import jieba
if __name__ == '__main__':
jieba.load_userdict("/Users/chengsi/Desktop/Poision/eggs/crawlers/dict.txt")
seg_gu=jieba.cut("故宮的重要景點:乾清宮", cut_all=False)
print("Full Mode:", '/'.join(seg_gu))
結果:Prefix dict has been built successfully.
Full Mode: 故宮/的/重要/景點/:/乾清宮
4、知識點普及
1)分詞文件怎麼寫
詞典格式是一個詞佔一行:每一行分3個部分,一部分爲詞語,另一部分爲詞頻,最後爲詞性。ns爲地點名詞,nz爲其它轉悠名詞,a是形容詞,v是動詞,d是副詞。
2)jieba.cut()參數說明
cut_all=True 全模式; cut_all=False 精確模式
5、搜索引擎模式
# 搜索引擎模式
text="我來自北京清華大學"
qinghua=jieba.cut_for_search(text)
print("搜索引擎模式:", '/'.join(qinghua))