【Elastic Search權威指南讀書小記7】ES之索引管理

有道雲排版好一點：https://note.youdao.com/ynoteshare1/index.html?id=c71c2939061bcd6d6bb156dcfbb1ba57&type=note

注意：ES的索引只的是INDEX，類似mysql的database，而不是mysql的索引key

1.創建刪除

索引可以被添加時自動創建，也可以手動創建。也可以使用delete指令刪除

2.索引設置

最重要的兩個參數：主分片和複製分片設置

PUT /my_temp_index { "settings": { "number_of_shards": 1, "number_of_replicas": 0 } }

動態設置複製分片

PUT /my_temp_index/_settings { "number_of_replicas": 1 }

3.配置分析器

分析器也是比較重要的設置，默認standard對西方語系支持不錯，但是不適合中文

在下面的例子中，我們創建了一個新的分析器，叫做 es_std ，並使用預定義的西班牙語停用詞

PUT /spanish_docs { "settings": { "analysis": { "analyzer": { "es_std": { "type": "standard", "stopwords": "_spanish_" } } } } }

4.自定義分析器

分析器是三個順序執行的組件的結合（字符過濾器，分詞器，標記過濾器）。實際工程中，不僅針對中文要選擇好分析器，也要針對自己的場景

字符過濾器

字符過濾器是讓字符串在被分詞前變得更加“整潔”。例如，如果我們的文本是 HTML 格

式，它可能會包含一些我們不想被索引的 HTML 標籤，諸如 <p> 或 <div> 。

我們可以使用 html_strip 字符過濾器來刪除所有的 HTML 標籤，並且將 HTML 實體轉

換成對應的 Unicode 字符，比如將 Á 轉成 Á 。

一個分析器可能包含零到多個字符過濾器。

分詞器

一個分析器必須包含一個分詞器。分詞器將字符串分割成單獨的詞（terms）或標記

（tokens）。 standard 分析器使用 standard 分詞器將字符串分割成單獨的字詞，刪除

大部分標點符號，但是現存的其他分詞器會有不同的行爲特徵。

例如， keyword 分詞器輸出和它接收到的相同的字符串，不做任何分詞處理。

[ whitespace 分詞器]只通過空格來分割文本。[ pattern 分詞器]可以通過正則表達式來

分割文本。

標記過濾器

分詞結果的標記流會根據各自的情況，傳遞給特定的標記過濾器。

標記過濾器可能修改，添加或刪除標記。我們已經提過 lowercase 和 stop 標記過濾

器，但是 Elasticsearch 中有更多的選擇。 stemmer 標記過濾器將單詞轉化爲他們的根

形態（root form）。 ascii_folding 標記過濾器會刪除變音符號，比如從 très 轉爲

tres 。 ngram 和 edge_ngram 可以讓標記更適合特殊匹配情況或自動完成。

5.創建自定義分析器

與索引設置一樣，我們預先配置好 es_std 分析器，我們可以再 analysis 字段下配置字符過濾器，分詞器和標記過濾器。

作爲例子，我們來配置一個這樣的分析器：

1. 用 html_strip 字符過濾器去除所有的 HTML 標籤

2. 將 & 替換成 and ，使用一個自定義的 mapping 字符過濾器

"char_filter": {//字符過濾器 "&_to_and": { "type": "mapping", "mappings": ["&=> and "] } }

1. 使用 standard 分詞器分割單詞

2. 使用 lowercase 標記過濾器將詞轉爲小寫

3. 用 stop 標記過濾器去除一些自定義停用詞。

"filter": {//標記過濾器 "my_stopwords": { "type": "stop", "stopwords": ["the", "a"] } }

合併

PUT /my_index { "settings": { "analysis": { "char_filter": {//字符過濾器 "&_to_and": { "type": "mapping", "mappings": ["&=> and "] } }, "filter": {//標記過濾器 "my_stopwords": { "type": "stop", "stopwords": ["the", "a"] } }, "analyzer": { "my_analyzer": { "type": "custom", "char_filter": ["html_strip", "&_to_and"], "tokenizer": "standard", "filter": ["lowercase", "my_stopwords"] } } } } }

查看配置成功

PUT /my_index/_mapping/my_type { "properties": { "title": { "type": "string", "analyzer": "my_analyzer" } } }

效果

GET /my_index/_analyze?analyzer=my_analyzer

The quick & brown fox

{ "tokens": [{ "token": "quick", "position": 2 }, { "token": "and", "position": 3 }, { "token": "brown", "position": 4 }, { "token": "fox", "position": 5 } ] }

6.一些重要概念

6.1根對象

映射的最高一層被稱爲根對象，它可能包含下面幾項：

1.一個 properties 節點，列出了文檔中可能包含的每個字段的映射

2.多個元數據字段，每一個都以下劃線開頭，例如 _type , _id 和 _source

3.設置項，控制如何動態處理新的字段，例如 analyzer , dynamic_date_formats 和

dynamic_templates 。

4.其他設置，可以同時應用在根對象和其他 object 類型的字段上，例如 enabled ,

dynamic 和 include_in_all

6.2屬性

三個最重要的設置

type ：字段的數據類型，例如 string 和 date

index ：字段是否應當被當成全文來搜索（ analyzed ），或被當成一個準確的值

（ not_analyzed ），還是完全不可被搜索（ no ）

analyzer ：確定在索引和或搜索時全文字段使用的分析器。

6.3元數據：_source 字段

用 JSON 字符串來表示文檔主體保存在 _source 字段中。

可以通過put關閉（不建議）

6.4 文檔 ID

文檔唯一標識由四個元數據字段組成：

_id ：文檔的字符串 ID

_type ：文檔的類型名

_index ：文檔所在的索引

_uid ： _type 和 _id 連接成的 type#id

_id 字段有一個你可能用得到的設置： path 設置告訴 Elasticsearch 它需要從文檔本身的

哪個字段中生成 _id。有點像唯一索引的意思。

PUT /my_index { "mappings": { "my_type": { "_id": { "path": "doc_id" < 1 > }, "properties": { "doc_id": { "type": "string", "index": "not_analyzed" } } } } }

6.5 動態映射dynamic

爲了控制映射，增加了dynamic可設置

通過 dynamic 設置來控制這些行爲

true ：自動添加字段（默認）

false ：忽略字段

strict ：當遇到未知字段時拋出異常

dynamic 設置可以用在根對象或任何 object 對象上。你可以將 dynamic 默認設置爲

strict ，而在特定內部對象上啓用它

7.自定義動態索引

如果你想在運行時的增加新的字段，你可能會開啓動態索引。雖然有時動態映射的規則顯得不那麼智能，幸運的是我們可以通過設置來自定義這些規則。

1.日期檢測可以通過在根對象上設置 date_detection 爲 false 來關閉

2.動態模板：可以通過匹配來選擇模板

例如，我們給 string 類型字段定義兩個模板：

es : 字段名以 _es 結尾需要使用 spanish 分析器。

en : 所有其他字段使用 english 分析器。

PUT /my_index { "mappings": { "my_type": { "dynamic_templates": [{ "es": { "match": "*_es", < 1 > "match_mapping_type": "string", "mapping": { "type": "string", "analyzer": "spanish" } } }, { "en": { "match": "*", < 2 > "match_mapping_type": "string", "mapping": { "type": "string", "analyzer": "english" } } } ] } } }

3.默認映射 _default_

PUT /my_index { "mappings": { "_default_": { "_all": { "enabled": false } }, "blog": { "_all": { "enabled": true } } } }

8.重新索引數據

修改在已存在的數據最簡單的方法是重新索引：創建一個新配置好的索引，然後將所有的文

檔從舊的索引複製到新的上。

使用【scan-scoll】來批量讀取舊索引的文檔，然後將通過【bulk API】來將它們推送給新的索引。

批量重新索引：你可以在同一時間執行多個重新索引的任務，但是你顯然不願意它們的結果有重疊。所以，可以將重建大索引的任務通過日期或時間戳字段拆分成較小的任務：

GET /old_index/_search?search_type=scan&scroll=1m { "query": { "range": { "date": { "gte": "2014-01-01", "lt": "2014-02-01" } } }, "size": 1000 }

【Elastic Search權威指南讀書小記7】ES之索引管理

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

【go小記】切片擴容策略

Centos No package golang available 報錯處理

phpmyadmin 連接mysql8 報requested authentication method unknown to the client [caching_sha2_password]

【golang筆記】切片自定義排序

Raft算法詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【Elastic Search權威指南 讀書小記7】ES之索引管理

【Elastic Search權威指南讀書小記7】ES之索引管理