【python 走進NLP】pkuseg一個領域細分的中文分詞工具包

原創

2019-01-16 21:32

2019年1月份北京大學發佈了中文分詞工具包：pkuseg，來測試下：

簡介：
pkuseg具有如下幾個特點：

多領域分詞。不同於以往的通用中文分詞工具，此工具包同時致力於爲不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點，用戶可以自由地選擇不同的模型。我們目前支持了新聞領域，網絡文本領域和混合領域的分詞預訓練模型，同時也擬在近期推出更多的細領域預訓練模型，比如醫藥、旅遊、專利、小說等等。
更高的分詞準確率。相比於其他的分詞工具包，當使用相同的訓練數據和測試數據，pkuseg可以取得更高的分詞準確率。
支持用戶自訓練模型。支持用戶使用全新的標註數據進行訓練。

官方網站：

https://github.com/lancopku/pkuseg-python

安裝：

pip install pkuseg

# -*- encoding=utf-8 -*-

import pkuseg
# 以默認配置加載模型
seg = pkuseg.pkuseg()
# 進行分詞
text = seg.cut('兄弟違心多少我加你')
print(text)



# 使用默認模型，並使用自定義詞典
# 希望分詞時用戶詞典中的詞固定不分開
lexicon = ['北京大學', '北京天安門']
# 加載模型，給定用戶詞典
seg = pkuseg.pkuseg(user_dict=lexicon)
text = seg.cut('我愛北京天安門')
print(text)

結果：

loading model
finish
['兄弟', '違心', '多少', '我', '加', '你']
loading model
finish
['我', '愛', '北京天安門']

Process finished with exit code 0

效果看起來還行、大家多測測

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【python 走進NLP】pkuseg一個領域細分的中文分詞工具包

致遠OA及相關OA系統集成與二次開發

System.Object未被引用的程序集中定義

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

【面試準備】項目經驗——接口自動化項目

【深度學習走進tensorflow2.0】TensorFlow binary was not compiled to use: AVX2

【matlab 圓周率計算】matlab 求圓周率的兩種算法實現比較

【深度學習走進tensorflow2.0】TensorFlow 2.0 常用模塊@tf.function

【機器學習非線性迴歸模型】10分鐘瞭解下8種常見的非線性迴歸模型

【深度學習走開tensorflow2.0】TensorFlow 2.0 常用模塊tf.TensorArray

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結