springboot整合solr與IK Analyzer(中文分詞器)

具體tomcat配置solr 安裝在我的上一篇文章：

https://blog.csdn.net/weixin_40787926/article/details/89474329

一、solr創建core：
1、首先在solrhome中創建solrDemo目錄;

(solrhome目錄爲：複製solr/server/solr/* 所有文件到tomcat/solrhome目錄，用到創建solr的core時使用。)
2、複製solr-8.0.0\example\example-DIH\solr\solr下的所有文件到apache-tomcat-8.5.40/solrhome/solrDemo目錄下：
3、重新啓動tomcat;
4、此時在瀏覽器輸入http://localhost:8080/solr/index.html即可出現Solr的管理界面，即可看到我們剛纔的solrDemo。

二、配置IKAnalyzer的中文分詞：

無論是Solr的還是Lucene的，都對中文分詞不支持，所以我們一般索引中文的話需要使用IK中文分詞器。

分詞器下載地址 https://github.com/EugenePig/ik-analyzer-solr5

下載完畢之後編譯

JDK8 環境

mvn clean install

JDK7 環境

mvn clean -Djavac.src.version=1.7 -Djavac.target.version=1.7 install

得到ik-analyzer-solr5-5.x.jar

1、ext.dic爲擴展字典,stopword.dic爲停止詞字典，IKAnalyzer.cfg.xml爲配置文件，ik-analyzer-solr5-5.x.jar 爲分詞jar包。

2、將文件夾下的IKAnalyzer.cfg.xml , ext.dic和stopword.dic 三個文件複製到apache-tomcat-8.5.40/webapps/solr/WEB-INF/classes 目錄下，並修改IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這裏配置自己的擴展字典 -->
        <entry key="ext_dict">ext.dic;</entry>

        <!--用戶可以在這裏配置自己的擴展停止詞字典-->
        <entry key="ext_stopwords">stopword.dic;</entry>

</properties>

3、在ext.dic 裏增加自己的擴展詞典，例如，唯品會聚美優品

4、複製ik-analyzer-solr5-5.x.jar到/apache-tomcat-8.5.40/webapps/solr/WEB-INF/lib/目錄下。

5、在 solrhome\mycore\conf\managed-schema 文件前增加如下配置

<fieldType name ="text_ik" class ="solr.TextField">



<analyzer type ="index" isMaxWordLength ="false" class ="org.wltea.analyzer.lucene.IKAnalyzer"/>



<analyzer type ="query" isMaxWordLength ="true" class ="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

注意: 記得將stopword.dic，ext.dic的編碼方式爲UTF-8 無BOM的編碼方式。

此時啓動tomcat,在瀏覽器輸入http://localhost:8080/solr/index.html即可出現Solr的管理界面。

三、solr與mysql集成索引：

首先在 solrconfig.xml 的《requestHandler name=”/select” class=”solr.SearchHandler”> 之上添加

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
　 <lst name="defaults">
　 <str name="config">data-config.xml</str>
　 </lst>
</requestHandler>

然後在conf下新建data-config.xml文件。裏面內容如下：


<dataConfig>
    <dataSource name="source1" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://數據庫ip:3306/***" user="root" password="123456" />
    <document>
        <entity dataSource="source1" name="Goods" pk="id" query="select goods_name,seo_description,seo_keywords,goods_price,goods_main_photo_id from goods"
            deltaImportQuery="select * from user where id='${dih.delta.id}'"
            deltaQuery="select id from user where updateTime> '${dataimporter.last_index_time}'">
            <field column="goods_name" name="goodsName" />
            <field column="seo_description" name="seoDescription" />
            <field column="seo_keywords" name="seoKeywords" />
            <field column="goods_price" name="goodsPrice" />
            <field column="goods_main_photo_id" name="goodsMainPhotoId" />
            <field column="update_time" name="updateTime" />
        </entity>
    </document>
</dataConfig>

dataSource是數據庫數據源。Entity就是一張表對應的實體，pk是主鍵，query是查詢語句。Field對應一個字段，column是數據庫裏的column名，後面的name屬性對應着Solr的Filed的名字。其中solrdata是數據庫名，goods是表名。
其中deltaQuery是增量索引，原理是從數據庫中根據deltaQuery指定的SQL語句查詢出所有需要增量導入的數據的ID號。然後根據deltaImportQuery指定的SQL語句返回所有這些ID的數據，即爲這次增量導入所要處理的數據。核心思想是：通過內置變量“dih.delta.id”和“dih.delta.id”和“{dataimporter.last_index_time}”來記錄本次要索引的id和最近一次索引的時間。

然後把mysql所需的jar包和solr-6.2.0\dist下的solr-dataimporthandler-6.2.0.jar和solr-dataimporthandler-extras-6.2.0.jar都複製到項目WEB-INF\lib下。
啓動Tomcat，輸入http://localhost:8080/solr/index.html按如下選擇，

四、查詢參數說明：
1、常用

q - 查詢字符串，這個是必須的。如果查詢所有: ，根據指定字段查詢（Name:張三 AND Address:北京）

fq - （filter query）過慮查詢，作用：在q查詢符合結果中同時是fq查詢符合的，例如：q=Name:張三&fq=createDate:[2014-06-18 TO 2015-12-18],找關鍵字”張三”，並且CreateDate是查詢2014-06-18到2015-12-18之間的數據

fl - 指定返回那些字段內容，用逗號或空格分隔多個。

start - 返回第一條記錄在完整找到結果中的偏移位置，0開始，一般分頁用。

rows - 指定返回結果最多有多少條記錄，配合start來實現分頁。

sort - 排序，格式：sort=《field name>+《desc|asc>[,《field name>+《desc|asc>]… 。示例：（score desc, price asc）表示先 “score” 降序, 再 “price” 升序，默認是相關性降序。

wt - (writer type)指定輸出格式，可以有 xml, json, PHP, phps。

fl表示索引顯示那些field( *表示所有field,如果想查詢指定字段用逗號或空格隔開（如：Name,SKU,ShortDescription或Name SKU ShortDescription【注：字段是嚴格區分大小寫的】）)

q.op 表示q 中查詢語句的各條件的邏輯操作 AND(與) OR(或)

hl 是否高亮 ,如hl=true

hl.fl 高亮field ,hl.fl=Name,SKU

hl.snippets :默認是1,這裏設置爲3個片段

hl.simple.pre 高亮前面的格式

hl.simple.post 高亮後面的格式

facet 是否啓動統計

facet.field 統計field

2、 Solr運算符

“:” 指定字段查指定值，如返回所有值:

“?” 表示單個任意字符的通配

“” 表示多個任意字符的通配（不能在檢索的項開始使用或者?符號）

“~” 表示模糊檢索，如檢索拼寫類似於”roam”的項這樣寫：roam~將找到形如foam和roams的單詞；roam~0.8，檢索返回相似度在0.8以上的記錄。

鄰近檢索，如檢索相隔10個單詞的”apache”和”jakarta”，”jakarta apache”~10

“^” 控制相關度檢索，如檢索jakarta apache，同時希望去讓”jakarta”的相關度更加好，那麼在其後加上”^”符號和增量值，即jakarta^4 apache

布爾操作符AND、||

布爾操作符OR、&&

布爾操作符NOT、!、- （排除操作符不能單獨與項使用構成查詢）

“+” 存在操作符，要求符號”+”後的項必須在文檔相應的域中存在
( ) 用於構成子查詢
[] 包含範圍檢索，如檢索某時間段記錄，包含頭尾，date:[200707 TO 200710]
{} 不包含範圍檢索，如檢索某時間段記錄，不包含頭尾
date:{200707 TO 200710}
/ 轉義操作符，特殊字符包括+ - && || ! ( ) { } [ ] ^ ” ~ * ? : /

注：①“+”和”-“表示對單個查詢單元的修飾，and 、or 、 not 是對兩個查詢單元是否做交集或者做差集還是取反的操作的符號

　　比如:AB:china +AB:america,表示的是AB:china忽略不計可有可無，必須滿足第二個條件纔是對的,而不是你所認爲的必須滿足這兩個搜索條件

　　如果輸入:AB:china AND AB:america,解析出來的結果是兩個條件同時滿足，即+AB:china AND +AB:america或+AB:china +AB:america

　　總而言之，查詢語法：修飾符字段名:查詢關鍵詞 AND/OR/NOT 修飾符字段名:查詢關鍵詞

3、 Solr查詢語法

1.最普通的查詢，比如查詢姓張的人（ Name:張）,如果是精準性搜索相當於SQL SERVER中的LIKE搜索這需要帶引號（”“）,比如查詢含有北京的（Address:”北京”）

2.多條件查詢，注：如果是針對單個字段進行搜索的可以用（Name:搜索條件加運算符(OR、AND、NOT) Name：搜索條件）,比如模糊查詢（ Name:張 OR Name:李）單個字段多條件搜索不建議這樣寫，一般建議是在單個字段裏進行條件篩選，如（Name:張 OR 李），多個字段查詢（Name:張 + Address:北京）

3.排序，比如根據姓名升序（Name asc）,降序（Name desc）

4.查詢結果匹配

一般情況下solr默認是進行拆分匹配查詢的，如：“蘇小小”拆成“蘇”，“小”，“小”等。但是如果要進行完全匹配 “蘇小小” 可以將關鍵詞用雙引號括起來如下：

例如：

http://localhost:8081/solr/select/?q=name:”蘇小小”&version=2.2&start=0&rows=10&indent=on&sort=cDate desc&hl=true&hl.fl=content

注意：如果在搜索的目標上有一句話中包含這個關鍵字，那麼這段話也會被搜索到，如：“很久很久以前蘇小小就是很出名了”。千萬不要以爲只是關鍵字的內容才能搜索到。

五、項目代碼：

pom文件引入：

<dependency>
	<groupId>org.springframework.boot</groupId>
	<artifactId>spring-boot-starter-data-solr</artifactId>
</dependency>

application.yml 中加上如上配置：


#配置sorl
spring:
  data:
    solr:
      host: http://192.168.1.130:8089/solr/solrDemo

使用autowired註解spring就能自動幫你注入SolrClient

package com.tj.dr.service.impl;

...
import java.util.List;

@Service
public class SearchServiceImpl implements SearchService {

    @Autowired
    private SearchMapper searchMapper;

    @Autowired
    private SolrClient solrClient;

    @Reference(version = "1.0")
    private UserInterfaces userInterfaces;

    @Reference(version = "1.0")
    private ConfigInterface configInterface;

    /**
     * 更新索引庫所有索引
     */
    @Override
    public void importAllIndex() {
        try {
            List<SearchGoodsDto> searchGoodsDtos = searchMapper.selectByGoodsList();

            List<SolrInputDocument> documents = new ArrayList<>();
            for (SearchGoodsDto goods : searchGoodsDtos) {
                SolrInputDocument document = new SolrInputDocument();
                document.addField("id", goods.getId());
                document.addField("goodsName", goods.getGoodsName());
                String price = goods.getGoodsPrice().toString();
                document.addField("goodsPrice", price);
                String url = null;
                if (!Common.isEmpty(goods.getGoodsMainPhotoId())) {
                    RedpigmallAccessory pic = userInterfaces.getRedpigmallAccessoryById(Long.valueOf(goods.getGoodsMainPhotoId()));
                    url = configInterface.getSysConfig().getDetail().getImagewebserver() + pic.getPath() + "/"
                            + pic.getName();
                }
                document.addField("goodsMainPhotoId", url);
                documents.add(document);
            }

            solrClient.add(documents);

            solrClient.commit();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    /**
     * 分頁查詢商品
     *
     * @param name
     * @param currentPage
     * @param pageSize
     * @return
     */
    @Override
    public PageUtils query(String name, int currentPage, int pageSize) throws IOException, SolrServerException {

        SolrQuery params = new SolrQuery();
        //查詢條件
        params.set("q", "goodsName:" + name);
        //這裏的分頁和mysql分頁一樣
        params.set("start", (currentPage - 1) * pageSize);
        params.set("rows", pageSize);
        params.set("wt", "json");
        QueryResponse query = solrClient.query(params);
        //查詢結果
        SolrDocumentList results = query.getResults();

        List<GoodsClassNameVo> list = new ArrayList<>();
        for (SolrDocument result : results) {
            GoodsClassNameVo searchGoodsDto = new GoodsClassNameVo();
            searchGoodsDto.setId(Long.valueOf(result.get("id").toString()));
            searchGoodsDto.setGoodsName(String.valueOf(result.get("goodsName")));
            BigDecimal goodsPrice = new BigDecimal(result.get("goodsPrice").toString());
            searchGoodsDto.setGoodsPrice(goodsPrice);
            if (null!=result.get("goodsMainPhotoId")){
                searchGoodsDto.setIcon(result.get("goodsMainPhotoId").toString());
            }

            list.add(searchGoodsDto);
        }
        //搜索總數
        long found = results.getNumFound();
        //搜索開始
        long start = results.getStart();

        PageUtils<GoodsClassNameVo> pageUtils = new PageUtils<>();
        pageUtils.setPageNum(currentPage);
        pageUtils.setPageSize(pageSize);
        pageUtils.setTotalNum(Integer.valueOf(String.valueOf(found)));
        pageUtils.setPageCount(Integer.valueOf(String.valueOf(found / pageSize == 0 ? found / pageSize : found / pageSize + 1)));
        pageUtils.setIsMore(found - start > pageSize ? 1 : 0);
        pageUtils.setItems(list);

        return pageUtils;
    }

    /**
     * @param
     * @author: ZhongQiuwu
     * Description:添加單個商品索引
     * @Date: 13:54 2018/3/31
     */
    @Override
    public void addGoodsIndex(SearchGoodsDto searchGoodsDto) throws IOException, SolrServerException {
        RedpigmallAccessory pic = userInterfaces.getRedpigmallAccessoryById(Long.valueOf(searchGoodsDto.getGoodsMainPhotoId()));
        String url = null;
        if (pic != null) {
            url = configInterface.getSysConfig().getDetail().getImagewebserver() + pic.getPath() + "/"
                    + pic.getName();
        }
        SolrInputDocument document = new SolrInputDocument();
        document.addField("id", searchGoodsDto.getId());
        document.addField("goodsName", searchGoodsDto.getGoodsName());
        String price = searchGoodsDto.getGoodsPrice().toString();
        document.addField("goodsPrice", price);
        document.addField("goodsMainPhotoId", url);
        solrClient.add(document);
        solrClient.commit();
    }

    /**
     * @param
     * @param ids
     * @author: ZhongQiuwu
     * Description: 根據id批量刪除
     * @Date: 13:59 2018/3/31
     */
    @Override
    public void deleteGoodsIndex(String[] ids) throws IOException, SolrServerException {
        List list = new ArrayList<>();
        for (String id : ids) {
            list.add(id);
        }
        solrClient.deleteById(list);
        solrClient.commit();
    }
}

springboot整合solr與IK Analyzer(中文分詞器)

springboot整合solr與IK Analyzer(中文分詞器)

MongoTemplate 查詢、修改、插入文檔

MongoDB查詢內嵌數組

Windows環境，tomcat8配置solr8.0.0啓動

SpringBoot的日誌管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結