Python之jieba庫使用

jieba庫的使用

@(Python)

jieba庫概述

jieba庫是優秀的中文分詞第三方庫

  • 中文文本需要通過分詞獲得單個的詞語

  • 需要額外安裝

  • jieba庫提供三種分詞模式,最簡單隻需掌握一個函數

命令行安裝

  • pip install jieba

jieba分詞的原理

  • 利用一箇中文詞庫,確定漢字之間的關聯概率

  • 漢字間概率大的組成詞組,形成分詞結果

  • 除了分詞,用戶還可以添加自定義的詞組

jieba分詞模式

  • 精確模式 : 把文本精確的切分開,不存在冗餘單詞

  • 全模式: 把文本所有可能的詞語都掃描出來,有冗餘

  • 搜索引擎模式: 在精確模式基礎上,對長詞再次切分

jieba庫常用函數

  • jieba.lcut(s) 精確模式,返回一個列表類型 的分詞結果

>>> import jieba
>>> jieba.lcut('中國是一個偉大的國家')
['中國', '是', '一個', '偉大', '的', '國家']
  • jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞結果,存在冗餘


>>> jieba.lcut('中國是一個偉大的國家',cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']
  • jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗餘


>>> jieba.lcut_for_search('中華人民共和國是一個偉大的國家')          
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '一個', '偉大', '的', '國家']
  • jieba.add_word(w)向分詞詞典增加新詞w

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章