自定義詞典
自定義詞典有多種添加模式,首先是展示的一個小例子,展示了詞彙的動態增加與強行插入,刪除等。
一、代碼方式插入
from pyhanlp import *
text = "攻城獅逆襲單身狗,迎娶白富美,走上人生巔峯" # 怎麼可能噗哈哈!
print(HanLP.segment(text))
CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
CustomDictionary.add("攻城獅") # 動態增加
CustomDictionary.insert("白富美", "nz 1024") # 強行插入
#CustomDictionary.remove("攻城獅"); # 刪除詞語(註釋掉試試)
CustomDictionary.add("單身狗", "nz 1024 n 1")
# 展示該單詞詞典中的詞頻統計 展示分詞
print(CustomDictionary.get("單身狗"))
print(HanLP.segment(text))
# 增加用戶詞典,對其他分詞器同樣有效
# 注意此處,CRF分詞器將單身狗分爲了n 即使單身狗:"nz 1024 n 1"
二、修改詞典文件
1.找到python安裝包的位置,對site-packages\pyhanlp\static\data\dictionary\custom\CustomDictionary.txt進行修改,注意刪除.bin緩存文件
2.如果強制優先使用自定義詞典分詞,添加代碼: StandardTokenizer = JClass("com.hankcs.hanlp.seg.Segment").enableCustomDictionaryForcing