解決IkAnalyzer分詞後文章字符全角變半角,字母大寫變小寫問題

工作中利用ik對 文章裏的字符做分詞 然後返回分詞後的字符 進行關鍵字替換
最後處理後的字符 發下文章裏的全角都被ik改成了半角,英文字母如果是大寫的也被ik改成了小寫 ,這是ik分詞內部類規則的一個特性一般用來做搜索的時候用的,這個沒錯,但是在我的需求裏用不到這個特性所以我必須把它去掉

打開ik的源碼包org.wltea.analyzer.core.CharacterUtil類裏
有個方法 叫regularize 該方法的作用是進行字符規格化(全角轉半角,大寫轉小寫處理)
顯然把這個方法註釋就好了 ,並且去掉相關引用地方的該方法調用
這樣ik分詞出來的字符就保留原先的完整性了icon_wink.gif
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章