在Hanlp詞典手動添加未登錄詞的方式介紹


在使用Hanlp詞典進行分詞的時候,會出現分詞不準的情況,原因是內置詞典中並沒有收錄當前這個詞,也就是我們所說的未登錄詞,只要把這個詞加入到內置詞典中就可以解決類似問題,如何操作呢,下面我們來看一下:

一,在Hanlp詞典中添加未登錄詞

1.找到hanlp內置詞典目錄

位於D:\hnlp\hanlp_code\hanlp\data\dictionary\custom 也就是Hanlp安裝包中的data\dictionary\custom下目錄

 

圖1.png

2. 將未登錄詞以詞名,詞性,詞頻的格式添加到文件中(句首或者句尾都可以)

圖2.png 


3.將字典的同名bin文件刪除掉

執行文件時讀取的是bin文件,必須刪掉後等下次執行時重新生成,新字典才發揮作用


圖3.png

4.使用新字典重新執行文件

執行時會遇到沒有相關bin文件的提示,不過放心,程序會自動生成一個新的bin文件,騷等片刻,就好了。

圖4.png 


驗證結果是否正確

 

圖5.png


 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章