【python 走進NLP】pkuseg一個領域細分的中文分詞工具包

2019年1月份北京大學發佈了中文分詞工具包:pkuseg,來測試下:

簡介:
pkuseg具有如下幾個特點:

多領域分詞。不同於以往的通用中文分詞工具,此工具包同時致力於爲不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。 我們目前支持了新聞領域,網絡文本領域和混合領域的分詞預訓練模型,同時也擬在近期推出更多的細領域預訓練模型,比如醫藥、旅遊、專利、小說等等。
更高的分詞準確率。相比於其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。
支持用戶自訓練模型。支持用戶使用全新的標註數據進行訓練。

官方網站:

https://github.com/lancopku/pkuseg-python

安裝:

pip install pkuseg
# -*- encoding=utf-8 -*-

import pkuseg
# 以默認配置加載模型
seg = pkuseg.pkuseg()
# 進行分詞
text = seg.cut('兄弟違心多少我加你')
print(text)



# 使用默認模型,並使用自定義詞典
# 希望分詞時用戶詞典中的詞固定不分開
lexicon = ['北京大學', '北京天安門']
# 加載模型,給定用戶詞典
seg = pkuseg.pkuseg(user_dict=lexicon)
text = seg.cut('我愛北京天安門')
print(text)

結果:

loading model
finish
['兄弟', '違心', '多少', '我', '加', '你']
loading model
finish
['我', '愛', '北京天安門']

Process finished with exit code 0

效果看起來還行、大家多測測

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章