Python自然語言處理之jieba分詞

1、函數及用法

jieba.cut 方法接受三個輸入參數:

  • 需要分詞的字符串
  • cut_all 參數用來控制是否採用全模式
  • HMM 參數用來控制是否使用 HMM 模型

jieba.cut_for_search 方法接受兩個參數

  • 需要分詞的字符串
  • 是否使用 HMM 模型。

jieba.lcut以及jieba.lcut_for_search直接返回 list:




利用tf-idf來提取關鍵詞和文本的tags:



另外,對於大量文本處理,在服務器,可以用命令行:


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章