结巴分词基本流程

1.加载自定义词典
jieba.load_userdict(file_name)
2.调整词典:
使用add_word(word, freq = None, tag = None)和del_word(word)可在程序中动态修改词典。
使用suggest_freq(segment, tune = True)可调节单个词语的词频,使其能(或不能)被分出来
3.分词
cut(),lcut(),cut_for_search(),lcut_for_search()
4.关键字提取(jieba.analyse)
方式1:基于tf-idf算法的关键词提取
一、设置逆向文件频率(IDF)文本语料库
jieba.analyse.set_idf_path(“path1”)
二、设置所使用的停用词文本语料库
jieba.analyse.set_stop_words(file_path)
三、关键字提取
tags = jieba.analyse.extract_tags(content, topK=10)
for tag in tags:
print(“tag:%s\t\t weight:%f” % (tag[0], tag[1]))
方式2、基于TextRank算法的关键词抽取
jieba.analyse.textrank(sentence, topK = 20, withWeight = False, allowPOS = (‘ns’, ‘n’, ‘vn’, ‘v’))直接使用,接口相同,注意默认过滤词性
jieba.analyse.TextRank()新建自定义TextRank示例
5.词性标注
jieba.posseg.POSTokenizer(tokenizer = None)新建自定义分词器,
tokenizer参数可指定内部使用的jieba.Tokenizer。
import jieba.posseg as pseg
words = pseg.cut(“我爱北京天安门”)
for word, flag in words:
print("%s %s" % (word, flag))
6.Tokenize:返回词语在原文的起止位置
import jieba
默认模式
result = jieba.tokenize(“永和服装饰品有限公司”)
搜索模式
result = jieba.tokenize(“永和服装饰品有限公司”,mode=“search”)
for tk in result:
print(“word %s\t\t start:%d\t\t end:%d” % (tk[0],tk[1],tk[2]))

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章