ES集羣的基本概念

Cluster

代表一個集羣，集羣中有多個節點，其中有一個爲主節點，這個主節點是可以通過選舉產生的，主從節點是對於集羣內部來說的。es的一個概念就是去中心化，字面上理解就是無中心節點，這是對於集羣外部來說的，因爲從外部來看es集羣，在邏輯上是個整體，你與任何一個節點的通信和與整個es集羣通信是等價的

Shards主分片

代表索引分片，es可以把一個完整的索引分成多個分片，這樣的好處是可以把一個大的索引拆分成多個，分佈到不同的節點上。構成分佈式搜索。分片的數量只能在索引創建前指定，並且索引創建後不能更改,這裏和索引分片的算法有關,因爲是通過取模算法去判斷分到哪,如果改變了就無法正常查詢之前的索引。

replicas分片副本

代表索引副本，es可以設置多個索引的副本，副本的作用一是提高系統的容錯性，當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率，es會自動對搜索請求進行負載均衡。

Recovery

代表數據恢復或叫數據重新分佈，es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配，掛掉的節點重新啓動時也會進行數據恢復。

ES爲什麼要實現集羣

ES集羣中索引可能由多個分片構成，並且每個分片可以擁有多個副本。通過將一個單獨的索引分爲多個分片，我們可以處理不能在一個單一的服務器上面運行的大型索引，簡單的說就是索引的大小過大，導致效率問題。不能運行的原因可能是內存也可能是存儲。由於每個分片可以有多個副本，通過將副本分配到多個服務器，可以提高查詢的負載能力。同時提高容錯性和高可用性

ES集羣核心原理分析

分片存儲規則

1、每個索引會被分成多個分片shards進行存儲，默認創建索引是分配5個分片進行存儲(需要注意的是es7.0默認索引分片數調整爲1了

)。每個分片都會分佈式部署在多個不同的節點上進行部署，該分片成爲primary shards.

注意：索引的主分片primary shards定義好後，後面不能做修改。

2、爲了實現高可用數據的高可用，主分片可以有對應的備分片replics shards，replic shards分片承載了負責容錯、以及請求的負載均衡.

注意: 每一個主分片爲了實現高可用，都會有自己對應的備分片,他們之間的關係可以是一對多,主分片對應的備分片不能存放同一臺服務器上（單臺ES沒有備用分片的）。主分片primary shards可以和其他replics shards存放在同一個node節點上。

在往主分片服務器存放數據時候，會對應實時同步到備用分片服務器,但是查詢時候，所有（主、備）都進行查詢：

Node1 ：P1+P2+R3組成了完整的數據

實例演示:

下面是一個已經搭建好的集羣.版本爲ES7.6.0

創建一個索引

PUT /testindex

查詢該索引

GET /testindex

7以下的版本這裏會是5和1 這裏是7.6.0版本所以是1 1

number_of_shards 相當於主分片數量代表將索引分成幾個分片 5就代表索引會分成5個分片

number_of_replicas 這裏相當於是副分片的總數,和上面不同的是這裏的1代表所有的副分片組成一份副本的意思.比如有5個主分片,

這裏就是5個副分片組成1分總副分片,如果這裏是2 代表會有10個副分片組成2份總的副分片.

修改分片數

分片數一般通過修改elasticsearch.yml文件中配置默認值

這裏我們修改副分片數量爲2

PUT testindex/_settings
{
  "index" : {
    "number_of_replicas" : 2
  }
}

然後查詢索引分片信息

GET /testindex/_search_shards

可以看到上圖 testindex索引主分片有1個副分片變爲2個 (這裏只是針對testindex來說,如果建立其他的索引分片初始還是會變成默認值)

我們接下來嘗試修改主分片數量

PUT testindex/_settings
{
  "index" : {
    "number_of_shards" : 3
  }
}

報錯,證明索引創建後無法修改分片數

創建索引時指定分片數量

要修改分片數只能在索引創建的時候進行修改

PUT test
{
  "settings" : {
    "index" : {
      "number_of_shards" : 3,
      "number_of_replicas" : 2
    }
  }
}

GET /test/_settings 創建並修改成功

執行 GET /test/_search_shards

可以發現 shards信息中一共有3個主索引 6個副索引

這裏我簡化了shards節點數據畫圖表示

抽象成下圖

每個節點上都有一份完整的數據即使其他兩個節點宕機也不會影響查詢

數據路由

當客戶端發起創建document的時候，es需要確定這個document放在該index哪個shard上。這個過程就是數據路由。

路由算法：shard = hash(routing) % number_of_primary_shards

這裏的routing指的就是document的id

如果number_of_primary_shards在查詢的時候取餘發生的變化，無法獲取到該數據

已知主分片數量爲3，

路由算法: shard = hash(routing) % 主分片數量3

分片位置 p1 = 1% 3 ， p2 =2%3 , p0=3%3

使用

GET test/_search_shards?routing=1

可以查看具體數據路由到哪個分片上面

如上 id爲1的文檔會路由到2號分片上

Elasticsearch分片原理

ES集羣的基本概念

ES爲什麼要實現集羣

ES集羣核心原理分析

分片存儲規則

實例演示:

數據結構與算法之美學習筆記(11章) 排序,冒泡,插入,選擇,歸併,快排

mybatis逆向生成工具(自用)

數據結構與算法之美學習筆記(15章,17章) 二分查找,跳錶

學習 mysql實戰45講筆記(1~10),用於後期檢驗

學習 mysql實戰45講筆記(11~15),用於後期檢驗

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結