IK分詞器插件
什麼是IK分詞器?
分詞:即把一段中文或者別的劃分成一個個的關鍵字,我們在搜索時候會把自己的信息進行分詞,會把數據庫中或者索引庫中的數據進行分詞,然後進行一個匹配操作,默認的中文分詞是將每個字看成一個詞,比如 “我愛小葉曲” 會被分爲"我","愛","小","葉","曲" 這顯然是不符合要求的,所以我們需要安裝中文分詞器ik來解決這個問題。
如果要使用中文,建議使用ik分詞器!
IK提供了兩個分詞算法:ik_smart 和 ik_max_word,其中 ik_smart 爲最少切分,ik_max_word爲最細粒度劃分!
安裝:
https://github.com/medcl/elasticsearch-analysis-ik
下載完畢之後,放入到我們的elasticsearch 插件即可!
重啓觀察ES,可以看到ik分詞器被加載了!
elasticsearch-plugin list 可以通過這個命令來查看加載進來的插件
使用kibana測試!
查看不同的分詞效果
其中 ik_smart 爲最少切分
ik_max_word爲最細粒度劃分!窮盡詞庫的可能!字典!
我們輸入 “超級喜歡賈宇光”
發現問題:“賈宇光” 被拆開了!
這種自己需要的詞,需要自己加到我們的分詞器的字典中!
ik 分詞器增加自己的配置!
重啓es,看細節!
再次測試一下狂神說,看下效果!