原文鏈接:https://my.oschina.net/jsonyang/blog/1643032
IK分詞器作爲一個開源軟件,分詞功能非常強大,一般場合的分詞需求,他都可以完勝。但是對於專業術語和行業用詞,ik有點不太智能,不過IK已經很棒了!下面我就介紹下如何手動添加熱詞文件的形式來拓展ik認知能力(分詞索引)。
第一步:我們需要收集我們需要的行業術語,dic文件。
我們可以先去ik插件的config文件下,已經有很多的dic文件。這就是ik自己的熱詞。
我自己加了一個叫hwtest.dic文件
我加了兩個詞,注意每個熱詞是需要換行的。在我重啓es的時候我先去看下這兩個詞是不是又被分詞了
現在看起來這兩個詞ik並不能認爲是一個完整的詞。
現在把該dic文件配置ik/config/IKAnalyzer.cfg.xml文件內。
先看下這個文件內容
我現在把hwtest.dic配置到<entry key="ext_dict"></ectry>內部。然後重啓es。
大家可以看下啓動日誌
hwtest.dic已經加載進去
大家看下“上海arthur”已經作爲了一個完整的詞。所以到時候如果存儲該熱詞即可被索引成一個詞。
手動添加拓展詞庫已經完成!