结巴分词基本流程

原創

2018-09-20 03:27

1.加载自定义词典
jieba.load_userdict(file_name)
2.调整词典：
使用add_word(word, freq = None, tag = None)和del_word(word)可在程序中动态修改词典。
使用suggest_freq(segment, tune = True)可调节单个词语的词频，使其能（或不能）被分出来
3.分词
cut(),lcut(),cut_for_search(),lcut_for_search()
4.关键字提取（jieba.analyse）
方式1：基于tf-idf算法的关键词提取
一、设置逆向文件频率（IDF）文本语料库
jieba.analyse.set_idf_path(“path1”)
二、设置所使用的停用词文本语料库
jieba.analyse.set_stop_words(file_path)
三、关键字提取
tags = jieba.analyse.extract_tags(content, topK=10)
for tag in tags:
print(“tag:%s\t\t weight:%f” % (tag[0], tag[1]))
方式2、基于TextRank算法的关键词抽取
jieba.analyse.textrank(sentence, topK = 20, withWeight = False, allowPOS = (‘ns’, ‘n’, ‘vn’, ‘v’))直接使用，接口相同，注意默认过滤词性
jieba.analyse.TextRank()新建自定义TextRank示例
5.词性标注
jieba.posseg.POSTokenizer(tokenizer = None)新建自定义分词器，
tokenizer参数可指定内部使用的jieba.Tokenizer。
import jieba.posseg as pseg
words = pseg.cut(“我爱北京天安门”)
for word, flag in words:
print("%s %s" % (word, flag))
6.Tokenize：返回词语在原文的起止位置
import jieba
默认模式
result = jieba.tokenize(“永和服装饰品有限公司”)
搜索模式
result = jieba.tokenize(“永和服装饰品有限公司”,mode=“search”)
for tk in result:
print(“word %s\t\t start:%d\t\t end:%d” % (tk[0],tk[1],tk[2]))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

微服务实践Aspire项目发布到远程k8s集群

前提你必須會創建aspire項目，不會的請先看微服務新體驗之Aspire初體驗 Aspirate (Aspir8) Aspirate 是將aspire項目發佈到k8s集羣的工具安裝aspirate dotnet tool install

2024-06-02 14:24:56

微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序

安裝配置相關軟件安裝 PowerShell 7 / Core dotnet tool install --global PowerShell 安裝 Visual Studio 擴展 Microsoft Child Process Deb

2024-06-02 14:24:56

.NET开源、跨平台、使用简单的面部识别库

前言今天給大家分享一個.NET開源（MIT License）、免費、跨平臺（適用於 Windows、MacOS 和 Linux ）、使用簡單的面部識別庫：FaceRecognitionDotNet。項目介紹 FaceRecogniti

2024-06-02 14:21:55

Python 潮流周刊#53：我辈楷模，一个约见诺奖得主，一个成为核心开发者

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-06-02 14:19:15

Terraform管理OpenStack

官方安裝指南 https://developer.hashicorp.com/terraform/install https://developer.hashicorp.com/terraform/intro/getting-sta

2024-06-02 14:13:44

matlab练习程序（LQR路径跟踪）

LQR 是一種優化控制方法，設計目標是找到一組控制輸入，使得線性系統的狀態軌跡儘可能地接近目標，同時使控制輸入儘可能小。其目標函數是一個二次型成本函數。分爲以下幾個步驟： 1. 設系統動態方程爲：其中x爲狀態量，u爲控制輸入，A和B爲

2024-06-02 14:11:04

h32 Most commonly used tags in HTML

Most commonly used tags in HTML Last Updated : 08 Mar, 2024 Most commonly used tags in HTML refer to HTM

2024-06-02 14:10:23

css45 CSS Math Functions

https://www.w3schools.com/css/css_math_functions.asp The CSS math functions allow mathematical expressions to be used

2024-06-02 14:10:23

CSS tutorials (w3school)

CSS tutorials (w3school) https://www.schoolsw3.com/css/index.php (Русский язык) https://www.w3schools.com/css/css_intro

2024-06-02 14:10:23

css44 CSS The !important Rule

https://www.w3schools.com/css/css_important.asp What is !important? The !important rule in CSS is used to add more imp

2024-06-02 14:10:23

css41 CSS Website Layout

https://www.w3schools.com/css/css_website_layout.asp Website Layout A website is often divided into headers, menus, co

2024-06-02 14:10:23

css39 CSS Forms

https://www.w3schools.com/css/css_form.asp The look of an HTML form can be greatly improved with CSS: <!DOCTYPE html>

2024-06-02 14:10:23

css40 CSS Counters

https://www.w3schools.com/css/css_counters.asp CSS counters are "variables" maintained by CSS whose values can be inc

2024-06-02 14:10:23

css43 CSS Specificity

https://zhuanlan.zhihu.com/p/670589063 CSS Specificity(CSS 特異性)是一個用來決定當多個CSS規則應用於同一個元素時,哪個規則將優先應用的機制。 What is Specific

2024-06-02 14:10:23

css42 CSS Units

https://www.w3schools.com/css/css_units.asp CSS Units CSS has several different units for expressing a length. Many CS

2024-06-02 14:10:23

24小時熱門文章

最新文章

最新評論文章