【python 走进NLP】pkuseg一个领域细分的中文分词工具包

2019年1月份北京大学发布了中文分词工具包:pkuseg,来测试下:

简介:
pkuseg具有如下几个特点:

多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络文本领域和混合领域的分词预训练模型,同时也拟在近期推出更多的细领域预训练模型,比如医药、旅游、专利、小说等等。
更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。

官方网站:

https://github.com/lancopku/pkuseg-python

安装:

pip install pkuseg
# -*- encoding=utf-8 -*-

import pkuseg
# 以默认配置加载模型
seg = pkuseg.pkuseg()
# 进行分词
text = seg.cut('兄弟违心多少我加你')
print(text)



# 使用默认模型,并使用自定义词典
# 希望分词时用户词典中的词固定不分开
lexicon = ['北京大学', '北京天安门']
# 加载模型,给定用户词典
seg = pkuseg.pkuseg(user_dict=lexicon)
text = seg.cut('我爱北京天安门')
print(text)

结果:

loading model
finish
['兄弟', '违心', '多少', '我', '加', '你']
loading model
finish
['我', '爱', '北京天安门']

Process finished with exit code 0

效果看起来还行、大家多测测

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章