python之中文分詞

目錄

1、安裝和使用jieba

2、分詞練習

3、爲jieba添加自定義的詞典

4、知識點普及

1)分詞文件怎麼寫

2)jieba.cut()參數說明

5、搜索引擎模式


1、安裝和使用jieba

直接用命令:pip3 install jieba就可以了,如圖所示表示成功。

2、分詞練習

import jieba

if __name__ == '__main__':
    seg_gu=jieba.cut("故宮的重要景點:乾清宮", cut_all=False)
    print("Full Mode:", '/'.join(seg_gu))

 結果:Prefix dict has been built successfully.
Full Mode: 故宮/的/重要/景點/:/乾/清宮

可以看到“乾清宮”在分詞時被分成了“乾”和“清宮”。這樣是不對的,怎麼辦?

3、爲jieba添加自定義的詞典

創建一個dict.txt文件,然後在文件中寫:

乾清宮 5 ns
黃琉璃瓦 4
雲計算 5
李小福 2 nr
八一雙鹿 nz
凱特琳 2 nz

修改代碼:

import jieba

if __name__ == '__main__':
    jieba.load_userdict("/Users/chengsi/Desktop/Poision/eggs/crawlers/dict.txt")
    seg_gu=jieba.cut("故宮的重要景點:乾清宮", cut_all=False)
    print("Full Mode:", '/'.join(seg_gu))

結果:Prefix dict has been built successfully.
Full Mode: 故宮/的/重要/景點/:/乾清宮

4、知識點普及

1)分詞文件怎麼寫

詞典格式是一個詞佔一行:每一行分3個部分,一部分爲詞語,另一部分爲詞頻,最後爲詞性。ns爲地點名詞,nz爲其它轉悠名詞,a是形容詞,v是動詞,d是副詞。

2)jieba.cut()參數說明

cut_all=True 全模式; cut_all=False 精確模式

5、搜索引擎模式

    # 搜索引擎模式
    text="我來自北京清華大學"
    qinghua=jieba.cut_for_search(text)
    print("搜索引擎模式:", '/'.join(qinghua))

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章