@(Python)
jieba庫概述
jieba庫是優秀的中文分詞第三方庫
中文文本需要通過分詞獲得單個的詞語
需要額外安裝
jieba庫提供三種分詞模式,最簡單隻需掌握一個函數
命令行安裝
pip install jieba
jieba分詞的原理
利用一箇中文詞庫,確定漢字之間的關聯概率
漢字間概率大的組成詞組,形成分詞結果
除了分詞,用戶還可以添加自定義的詞組
jieba分詞模式
精確模式 : 把文本精確的切分開,不存在冗餘單詞
全模式: 把文本所有可能的詞語都掃描出來,有冗餘
搜索引擎模式: 在精確模式基礎上,對長詞再次切分
jieba庫常用函數
jieba.lcut(s)
精確模式,返回一個列表類型 的分詞結果
>>> import jieba >>> jieba.lcut('中國是一個偉大的國家') ['中國', '是', '一個', '偉大', '的', '國家']
jieba.lcut(s,cut_all=True)
全模式,返回一個列表類型的分詞結果,存在冗餘
>>> jieba.lcut('中國是一個偉大的國家',cut_all=True) ['中國', '國是', '一個', '偉大', '的', '國家']
jieba.lcut_for_search(s)
搜索引擎模式,返回一個列表類型的分詞結果,存在冗餘
>>> jieba.lcut_for_search('中華人民共和國是一個偉大的國家') ['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '一個', '偉大', '的', '國家']
jieba.add_word(w)
向分詞詞典增加新詞w