2019年1月份北京大学发布了中文分词工具包:pkuseg,来测试下:
简介:
pkuseg具有如下几个特点:
多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络文本领域和混合领域的分词预训练模型,同时也拟在近期推出更多的细领域预训练模型,比如医药、旅游、专利、小说等等。
更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
官方网站:
https://github.com/lancopku/pkuseg-python
安装:
pip install pkuseg
# -*- encoding=utf-8 -*-
import pkuseg
# 以默认配置加载模型
seg = pkuseg.pkuseg()
# 进行分词
text = seg.cut('兄弟违心多少我加你')
print(text)
# 使用默认模型,并使用自定义词典
# 希望分词时用户词典中的词固定不分开
lexicon = ['北京大学', '北京天安门']
# 加载模型,给定用户词典
seg = pkuseg.pkuseg(user_dict=lexicon)
text = seg.cut('我爱北京天安门')
print(text)
结果:
loading model
finish
['兄弟', '违心', '多少', '我', '加', '你']
loading model
finish
['我', '爱', '北京天安门']
Process finished with exit code 0
效果看起来还行、大家多测测