pyhanlp添加自定義詞典 強制優先自定義詞典分詞

自定義詞典
自定義詞典有多種添加模式,首先是展示的一個小例子,展示了詞彙的動態增加與強行插入,刪除等。

一、代碼方式插入
from pyhanlp import *

text = "攻城獅逆襲單身狗,迎娶白富美,走上人生巔峯"  # 怎麼可能噗哈哈!

print(HanLP.segment(text))

CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
CustomDictionary.add("攻城獅")  # 動態增加
CustomDictionary.insert("白富美", "nz 1024")  # 強行插入
#CustomDictionary.remove("攻城獅"); # 刪除詞語(註釋掉試試)
CustomDictionary.add("單身狗", "nz 1024 n 1")


# 展示該單詞詞典中的詞頻統計 展示分詞
print(CustomDictionary.get("單身狗"))
print(HanLP.segment(text))


# 增加用戶詞典,對其他分詞器同樣有效
# 注意此處,CRF分詞器將單身狗分爲了n 即使單身狗:"nz 1024 n 1"

二、修改詞典文件

1.找到python安裝包的位置,對site-packages\pyhanlp\static\data\dictionary\custom\CustomDictionary.txt進行修改,注意刪除.bin緩存文件

2.如果強制優先使用自定義詞典分詞,添加代碼:
StandardTokenizer = JClass("com.hankcs.hanlp.seg.Segment").enableCustomDictionaryForcing
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章