【python 走进NLP】pkuseg一个领域细分的中文分词工具包

原創

2019-01-16 21:32

2019年1月份北京大学发布了中文分词工具包：pkuseg，来测试下：

简介：
pkuseg具有如下几个特点：

多领域分词。不同于以往的通用中文分词工具，此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点，用户可以自由地选择不同的模型。我们目前支持了新闻领域，网络文本领域和混合领域的分词预训练模型，同时也拟在近期推出更多的细领域预训练模型，比如医药、旅游、专利、小说等等。
更高的分词准确率。相比于其他的分词工具包，当使用相同的训练数据和测试数据，pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。

官方网站：

https://github.com/lancopku/pkuseg-python

安装：

pip install pkuseg

# -*- encoding=utf-8 -*-

import pkuseg
# 以默认配置加载模型
seg = pkuseg.pkuseg()
# 进行分词
text = seg.cut('兄弟违心多少我加你')
print(text)



# 使用默认模型，并使用自定义词典
# 希望分词时用户词典中的词固定不分开
lexicon = ['北京大学', '北京天安门']
# 加载模型，给定用户词典
seg = pkuseg.pkuseg(user_dict=lexicon)
text = seg.cut('我爱北京天安门')
print(text)

结果：

loading model
finish
['兄弟', '违心', '多少', '我', '加', '你']
loading model
finish
['我', '爱', '北京天安门']

Process finished with exit code 0

效果看起来还行、大家多测测

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【python 走进NLP】pkuseg一个领域细分的中文分词工具包

C#开源的两款功能强大的录屏神器

认知提升的方法

蚂蚁面试：Springcloud核心组件的底层原理，你知道多少？

【深度學習走進tensorflow2.0】TensorFlow binary was not compiled to use: AVX2

【matlab 圓周率計算】matlab 求圓周率的兩種算法實現比較

【深度學習走進tensorflow2.0】TensorFlow 2.0 常用模塊@tf.function

【機器學習非線性迴歸模型】10分鐘瞭解下8種常見的非線性迴歸模型

【深度學習走開tensorflow2.0】TensorFlow 2.0 常用模塊tf.TensorArray

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結