參考
1.https://www.cnblogs.com/jmswag/p/9089366.html Lucene IK分詞器集成,詞典擴展(詳細,推薦看此博客)
2.https://blog.csdn.net/wangqing84411433/article/details/86239535 配置IKAnalyzer擴展詞庫(提到了一些要注意的問題)
3.https://blog.csdn.net/qq_40131121/article/details/80591177 maven項目中使用IK分詞,加載擴展詞典配置文件的路徑問題
(一般項目,該配置文件放到src目錄下即可,在maven項目中需要放在src/main/java目錄下。意思是配置文件可放在上述兩個路徑下建立的子目錄中)
針對參考的博客,主要想補充說明目錄結構和配置文件內容
- 我按照參考1復現了一下項目,項目目錄如下:
//注意配置文件的位置;詞典(.dic)的位置可以隨意,修改在配置文件中的路徑配置即可
- 配置文件IKAnalyzer.cfg.xml的內容爲
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 擴展配置</comment>
<!-- 用戶可以在這裏配置自己的擴展字典 -->
<entry key="ext_dict">ext.dic</entry>
<!-- 用戶可以在這裏配置自己的擴展停止字典 -->
<entry key="ext_stopwords">my_ext_stopword.dic</entry>
</properties>
我看到的博客都是類似的配置,“ext_dict”和“ext_stopwords”是固定的,該配置文件的名稱也是固定的,因爲在ikanalyzer jar包中對相關信息進行了定義:
/*
* 分詞器配置文件路徑
*/
private static final String FILE_NAME = "IKAnalyzer.cfg.xml";
// 配置屬性——擴展字典
private static final String EXT_DICT = "ext_dict";
// 配置屬性——擴展停止詞典
private static final String EXT_STOP = "ext_stopwords";