開始之前,可以參考上篇博文增量索引-數據導入並索引:
http://josh-persistence.iteye.com/admin/blogs/2017059
Solr增量索引配置
一、開始增量索引前的準備工作。
1、認識data-config.xml中相關屬性
<!-- transformer 格式轉化:HTMLStripTransforme表示 索引中將忽略HTML標籤 --->
<!-- query: 查詢數據庫表符合記錄數據 --->
<!-- deltaQuery:增量索引 查詢主鍵ID ---> 注意這個query只返回ID字段
<!-- deltaImportQuery:增量索引 查詢導入的數據 --->
<!-- deletedPkQuery:增量索引 刪除主鍵ID查詢 ---> 注意這個只返回ID字段
最主要的是我們要知道這樣一個事實: last_index_time是DataImportHandler的一個默認字段,(可查看conf目錄下的dataimporter.properties文件)
我們可以在任何SQL中引用,該字段用於表明上次做full import或者是delta import(增量導入)的最後一次時間。
2、數據庫配置注意事項
1)、如果只涉及添加與修改業務,那麼數據庫裏只需添加一個類型爲timpstamp,默認值爲當前系統時間的字段 :CURRENT_TIMESTAMP(mysql)
2)、如果還涉及刪除業務,那麼數據裏就需額外再多添加一個字段isdelete,int類型的用0,1來標識,此條記錄是否被刪除,當然也可以用其他字段標識,ture或false都可以
3、dataimporter.properties / {corename}_dataimporter.properties
在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果沒有,則新建該文件。
這個配置文件很重要,它是用來記錄索引的最新一次修改時間的,通過該配置文件可以找出新增的、修改的或者刪除的記錄。相關實例:
在data-config中添加如下配置信息。
- <dataConfig>
- <!--- 此段話配置的是一個MySQL的數據源,(數據源也可以配置在solrconfig.xml中) ---> <dataSource name="activityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>
- <document>
- <entity pk="ID" dataSource="activityDB" name="myentity"
- query="select * from myentity WHERE isdelete=0"
- deltaQuery="select ID from myentity where my_date >'${dih.last_index_time}'"
- deletedPkQuery="select ID from myentity where isdelete=1"
- deltaImportQuery="select * from myentity where ID='${dih.delta.id}">
- <!-- ID指定大寫的,與上面語句中的對應起來---->
- <field column="ID" name="id"/>
- <field column="name" name="name"/>
- <field column="address" name="address"/>
- <field column="age" name="age"/>
- <field column="my_date" name="my_date"/>
- <field column="isdelete" name="isdelete"/>
- </entity>
- </document>
- </dataConfig>
- <!-- pk="ID" 必須,因爲其中的增量索引查詢主鍵ID時需要 -->
- <!-- dataSource="acitvityDB" 這個引用名字是引用上面數據源的名字 -->
- <!-- name="myentity" 存在多個實體時,這個名字必須唯一 -->
- <!-- query:用於全量導入而非增量導入
- query="select * from myentity WHERE isdelete=0
- query查詢是指查詢出表裏所有的符合條件的數據,因爲筆者測試的有刪除業務,所以
- where後面有一個限定條件isdelete=0,意思爲查詢未被刪除的數據
- -->
- <!-- deltaQuery : 用於增量導入且只返回ID
- deltaQuery="select ID from myentity where my_date >
- '${dih.last_index_time}'"
- deltaQuery的意思是,查詢出所有經過修改的記錄的ID
- 可能是修改操作,添加操作,刪除操作產生的
- -->
- <!-- deletedPkQuery : 用於增量導入且只返回ID
- deletedPkQuery="select ID from myentity where isdelete=1"
- 此操作只查詢那些數據庫裏僞刪除的數據的ID(即isdelete標識爲1的數據)
- solr通過它來刪除索引裏面對應的數據
- -->
- <!-- deltaImportQuery: 增量導入起作用,可以返回多個字段的值,一般情況下,都是返回所有字段的列
- deltaImportQuery="select * from myentity where ID='${dih.delta.ID}'"
- deltaImportQuery查詢是獲取以上兩步的ID,然後把其全部數據獲取,根據獲取的數據
- 對索引庫進行更新操作,可能是刪除,添加,修改
- -->
注:如果有必要,則可以在schema.xml中添加一個timestamp的field
<field name="timestamp" type="date" indexed="true" stored="true" default="NOW" />
做了以上配置後,可以設置linux的cron job或者Spring 的TaskSchuduler或者Cron Job後,可以定時發url:
http://localhost:8983/solr/dataimport?command=delta-import去做增量索引。更多關於Solr做增量索引的說明文檔:http://wiki.apache.org/solr/DataImportHandler
當然也可以用Solr自帶的Scheduler來做增量索引:
http://wiki.apache.org/solr/DataImportHandler#Scheduling