solr進階一：java代碼添加索引和增加IKAnalyzer分詞支持

觀察solr的工作環境solr_tomcat\solr\collection1\，在這裏面存在兩個文件夾：conf和data。其中conf裏存放了對solr而言最爲重要的兩個配置文件schema.xml和solrconfig.xml，前者是索引字段等的設置，後者是性能的設置。data文件夾則用於存放索引文件。

schema.xml主要包括types、fields和其他的一些缺省設置。

solrconfig.xml用來配置Solr的一些系統屬性，例如與索引和查詢處理有關的一些常見的配置選項，以及緩存、擴展等等。

上面的文檔對這兩個文件有比較詳細的說明，非常容易上手。注意到schema.xml裏有一個

<uniqueKey>id</uniqueKey>的配置，這裏將id字段作爲索引文檔的唯一標識符，非常重要。

Solr提供了一個企業搜索引擎平臺的核心，可以通過他的接口進行索引的創建、修改、刪除。並提交關鍵字進行搜索。但如果要真正的投入使用，還是有不少工作需要做，如：

1、對向Solr提交索引進行一定的封裝以方便業務系統進行操作

2、對搜索進行封裝，以方便結果的展現分析等等。

Solrj是使用java編寫的一個操作Solr的工具，方便於進行索引的更新、搜索結果的獲取等等。

在Solr的發佈包裏面有Solrj的相關jar包。Solrj需要的jar包爲：

solr-4.10.2\dist目錄下的solr-solrj-4.10.2.jar和它的依賴包solr-4.10.2\dist\solrj-lib，另外還需要commons-logging這個jar，否則運行會提示缺少這個jar包。

如果是使用maven，可以添加：

<dependency>
 <groupId>org.apache.solr</groupId>
 <artifactId>solr-solrj</artifactId>
 <version>4.10.2</version>
</dependency>

目錄結構可以是這樣：

使用Solrj更新索引

使用Solrj是首先我們實例化一個SolrServer，這裏使用HttpSolrServer。我們再創建一個SolrInputDocument以方便來添加要索引的數據。這裏的Field是在\solr\solr\collection1\conf\schema.xml裏面定義的，如果沒有在這裏面定義的話就可以使用動態添加字段，以下的示例代碼就是動態添加字段：

import org.apache.solr.client.solrj.SolrServer;
import org.apache.solr.client.solrj.SolrServerException;
import org.apache.solr.client.solrj.impl.HttpSolrServer;
import org.apache.solr.common.SolrInputDocument;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * Created by Lhx on 14-12-3.
 */
public class AddField {
    public static void main(String[] args) {
        String url = "http://localhost:8080/solr";
        SolrServer server = new HttpSolrServer(url);
        SolrInputDocument doc1 = new SolrInputDocument();

        doc1.addField("id","1");
        doc1.addField("title","廣東某某科技");
        doc1.addField("cat","互聯網科技公司，擁有大量高素質人才");

        SolrInputDocument doc2 = new SolrInputDocument();
        doc2.addField("id","2");
        doc2.addField("title","廣西某X工業園");
        doc2.addField("cat","工業園生成產品的喔！");

        SolrInputDocument doc3 = new SolrInputDocument();
        doc3.addField("id","3");
        doc3.addField("title","lifeix");
        doc3.addField("cat","天氣變冷了，要記得穿衣服");

        List<SolrInputDocument> docs = new ArrayList<SolrInputDocument>();
        docs.add(doc1);
        docs.add(doc2);
        docs.add(doc3);
        try {
            server.add(docs);
            server.commit();
        } catch (SolrServerException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

這裏的ID值是string類型的，因爲在solr_tomcat\solr\collection1\conf裏面的schema.xml定義了：

運行後，添加了三個document到solr的索引庫裏面，到solr主界面裏面能看到：

數據存放在哪裏都有提示了。

version : 每更新一個字段就加1；

其餘的看英文註釋就可以大概知道什麼意思了。

接着就是進行搜索了。

繼續使用solrj搜索

搜索的第一步和上面一樣，先取得一個SolrServer。然後創建一個SolrQuery進行搜索，搜索取得的數據已經封裝在QueryResponse裏面，通過相關API獲取結果數據。示例代碼如下：

import org.apache.solr.client.solrj.SolrQuery;
import org.apache.solr.client.solrj.SolrServer;
import org.apache.solr.client.solrj.SolrServerException;
import org.apache.solr.client.solrj.impl.HttpSolrServer;
import org.apache.solr.client.solrj.response.QueryResponse;
import org.apache.solr.common.SolrDocument;
import org.apache.solr.common.SolrDocumentList;

/**
 * Created by Lhx on 14-12-3.
 */
public class SolrjQuery {
    public static void main(String[] args) {
        String url = "http://localhost:8080/solr";
        SolrServer server = new HttpSolrServer(url);
        SolrQuery query = new SolrQuery("廣東");
        try {
            QueryResponse response = server.query(query);
            SolrDocumentList docs = response.getResults();
            System.out.println("文檔個數：" + docs.getNumFound());
            System.out.println("查詢時間：" + response.getQTime());
            for (SolrDocument doc : docs) {
                System.out.println("id" + doc.getFieldValue("id"));
                System.out.println("name" + doc.getFieldValue("title"));
                System.out.println("==================");
            }
        } catch (SolrServerException e) {
            e.printStackTrace();
        }
    }
}

結果把“廣西”也搜索出來了，可見結果不是很準確。

我們也可以在solr頁面上進行搜索。

打開頁面，選擇“collection1”

接着：

選擇左邊的“Query”，在“q”裏面輸入：titile:廣西，點擊“Execute Query”按鈕就可以進行搜索了，結構顯示在右邊。綠色框是get請求的地址，在任意瀏覽器裏面輸入這一地址就可以返回json數據了。

到這裏你想到了什麼沒？用solr做搜索簡直太簡單了！把需要的詞彙存入，然後對接客戶端的接口，一個搜索引擎就建成了，當然這其中還有很多優化工作做，不過至少我們有一個山寨搜索引擎了！

===============================================================================================================

爲使搜索更準確些，我們現在加入中文分詞器，要加入的中文分詞器爲ik-analyzer。

到網上隨便搜一個，我下載的是2012版的。

壓縮包裏面的內容如下：

IK-Analyzer下載地址：

http://pan.baidu.com/s/1o6FRx0Y

把IKAnalyzer2012.jar拷貝到tomcat目錄下的solr項目中：

apache-tomcat-6.0.43\webapps\solr\WEB-INF\lib

把IKAnalyzer.cfg.xml、stopword.dic拷貝到需要使用分詞器的core（collection）的conf下面，和core的schema.xml文件一個目錄：

solr_tomcat\solr\collection1\conf

修改core的schema.xml，在下面加一段如下配置：

<fieldType name="text_ik" class="solr.TextField">   
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
 </fieldType>

和

<field name="name1" type="text_ik" indexed="true" stored="true" multiValued="false" />

如下圖：

網上的教程都寫成了：

當你啓動tomcat的後，會報出以下錯誤：

根據英文提示，知道我們的name是重複定義的了，拉到配置文件的前面，能發現也有<field name="name" ……………………>所以這個name的值要改變一下，不能和前面定義的重複就可以了。

重啓tomcat，刷新一下solr頁面，在左側點擊下拉列表，點擊“collection1”，就會展示這個core的功能列表出來，選擇“Analysis”，接着在右邊中間的下拉選擇“name1”，也就是我們定義的字段。

——————————————————————

——————————————————————————————————

——————————————————————————————

輸入一條中文語句就能分析了：

Tomcat裏面的提示：

現在我們回到前面的問題，當輸入“廣東”的時候，連“廣西”的信息也查詢出來了，到schema.xml文件裏面，發現“title”這個字段默認的類型是：text_general。

整條語句是這樣的：

<field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>

在界面的Analysis分析句子功能中，輸入“廣東”兩個字，會發現這個詞被分開了，其實輸入什麼漢字，都是會分成一個個漢字的。此時，我們就要用到剛剛配置好的分詞工具了。把配置語句改爲：

<field name="title" type="text_ik" indexed="true" stored="true" multiValued="true"/>

重啓Tomcat，在Analysis分析裏面，會發現“廣東”這個詞不會分開了，“廣西”這個詞也不會分開了。這樣就爲我們的精確搜索打下了基礎。

來到“Query”界面，輸入：title:廣東，發現居然沒有搜索到信息！仔細一看：

原來title是數組數據了，回到schema.xml文件，還是修改那段話，修改爲：

<field name="title" type="text_ik" indexed="true" stored="true" multiValued="false"/>

multiValued爲false，重啓Tomcat，重新導入數據，發現數據是單值的了：

搜索，做到了精確搜索：

在原來的代碼裏面，改這行代碼：

SolrQuery query = new SolrQuery("title:廣東");

運行：

沒有“廣西”的結果出來了！

===============================

後記：

跟着我做，你會在刷新solr頁面那裏發現這樣的提示：

core完全不能用，tomcat裏面的提示也只是找不到某某類而已。我也找了很多資料，可是都不能解釋爲什麼這樣！最後我還是按大多數教程換成了IK Analyzer 2012FF_hf1，把裏面的那三個文件一次替代了。就不會出現這樣的問題了！

鄭重提示：一定要使用： IK Analyzer 2012FF_hf1

solr進階一：java代碼添加索引和增加IKAnalyzer分詞支持

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

solr進階一：java代碼添加索引和增加IKAnalyzer分詞支持

Solr 安裝配置使用

solr進階九：solr對數字和單個字符的搜索

sencha touch安裝使用

sencha touch學習筆記一：web工程下的示例

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結