工作中利用ik對 文章裏的字符做分詞 然後返回分詞後的字符 進行關鍵字替換
最後處理後的字符 發下文章裏的全角都被ik改成了半角,英文字母如果是大寫的也被ik改成了小寫 ,這是ik分詞內部類規則的一個特性一般用來做搜索的時候用的,這個沒錯,但是在我的需求裏用不到這個特性所以我必須把它去掉
打開ik的源碼包org.wltea.analyzer.core.CharacterUtil類裏
有個方法 叫regularize 該方法的作用是進行字符規格化(全角轉半角,大寫轉小寫處理)
顯然把這個方法註釋就好了 ,並且去掉相關引用地方的該方法調用
這樣ik分詞出來的字符就保留原先的完整性了
解決IkAnalyzer分詞後文章字符全角變半角,字母大寫變小寫問題
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
elasticsearch ik分詞--實現專有名詞分詞 同義詞解析
【随风飘流】
2020-06-22 02:10:13
solr7.X 配置ikanalyzer和自帶的中文分詞器
Aloneii
2020-06-04 07:53:08
ELK--Elasticsearch 安裝 ik分詞器 插件
乾源
2020-05-12 18:03:36
Linux和Windows下elasticsearch安裝和使用ik分詞器
涛哥是个大帅比
2020-04-24 11:25:30
elasticsearch ik分詞--實現專有名詞分詞 同義詞解析
【随风飘流】
2020-06-22 02:10:13
lucene4.2自帶demo
xuehanxin
2020-06-16 06:19:42
solr7.X 配置ikanalyzer和自帶的中文分詞器
Aloneii
2020-06-04 07:53:08
ELK--Elasticsearch 安裝 ik分詞器 插件
乾源
2020-05-12 18:03:36
Elasticsearch7.x使用(五) ICU分詞插件
漫天雪_昆仑巅
2020-05-09 05:03:50
Linux和Windows下elasticsearch安裝和使用ik分詞器
涛哥是个大帅比
2020-04-24 11:25:30
maven項目中使用IK分詞,加載擴展詞典配置文件的路徑問題
yszhong123
2018-09-01 08:58:39