ik添加詞庫

原文鏈接:https://my.oschina.net/jsonyang/blog/1643032

2019獨角獸企業重金招聘Python工程師標準>>> hot3.png

IK分詞器作爲一個開源軟件,分詞功能非常強大,一般場合的分詞需求,他都可以完勝。但是對於專業術語和行業用詞,ik有點不太智能,不過IK已經很棒了!下面我就介紹下如何手動添加熱詞文件的形式來拓展ik認知能力(分詞索引)。

第一步:我們需要收集我們需要的行業術語,dic文件。

我們可以先去ik插件的config文件下,已經有很多的dic文件。這就是ik自己的熱詞。

114004_ZFR3_2401293.png

我自己加了一個叫hwtest.dic文件

114240_Xg5y_2401293.png

我加了兩個詞,注意每個熱詞是需要換行的。在我重啓es的時候我先去看下這兩個詞是不是又被分詞了

114409_ToYt_2401293.png

114349_Drxf_2401293.png

現在看起來這兩個詞ik並不能認爲是一個完整的詞。

現在把該dic文件配置ik/config/IKAnalyzer.cfg.xml文件內。

先看下這個文件內容

114549_xUxz_2401293.png

我現在把hwtest.dic配置到<entry key="ext_dict"></ectry>內部。然後重啓es。

大家可以看下啓動日誌

145027_K7Da_2401293.png

hwtest.dic已經加載進去

145221_PG77_2401293.png

145107_zF49_2401293.png

大家看下“上海arthur”已經作爲了一個完整的詞。所以到時候如果存儲該熱詞即可被索引成一個詞。

手動添加拓展詞庫已經完成!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章