筆記2 IKAnalyzer擴展詞庫

參考

1.https://www.cnblogs.com/jmswag/p/9089366.html  Lucene IK分詞器集成,詞典擴展(詳細,推薦看此博客)

2.https://blog.csdn.net/wangqing84411433/article/details/86239535 配置IKAnalyzer擴展詞庫(提到了一些要注意的問題)

3.https://blog.csdn.net/qq_40131121/article/details/80591177 maven項目中使用IK分詞,加載擴展詞典配置文件的路徑問題

(一般項目,該配置文件放到src目錄下即可,在maven項目中需要放在src/main/java目錄下。意思是配置文件可放在上述兩個路徑下建立的子目錄中)

針對參考的博客,主要想補充說明目錄結構和配置文件內容

  • 我按照參考1復現了一下項目,項目目錄如下:

//注意配置文件的位置;詞典(.dic)的位置可以隨意,修改在配置文件中的路徑配置即可

  • 配置文件IKAnalyzer.cfg.xml的內容爲
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 擴展配置</comment>
	<!-- 用戶可以在這裏配置自己的擴展字典 -->
	<entry key="ext_dict">ext.dic</entry>
	
	<!-- 用戶可以在這裏配置自己的擴展停止字典 -->
	<entry key="ext_stopwords">my_ext_stopword.dic</entry>
</properties>

我看到的博客都是類似的配置,“ext_dict”和“ext_stopwords”是固定的,該配置文件的名稱也是固定的,因爲在ikanalyzer jar包中對相關信息進行了定義:

 /*
   * 分詞器配置文件路徑
   */
  private static final String FILE_NAME = "IKAnalyzer.cfg.xml";
  // 配置屬性——擴展字典
  private static final String EXT_DICT = "ext_dict";
  // 配置屬性——擴展停止詞典
  private static final String EXT_STOP = "ext_stopwords";

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章