Elasticsearch集羣——基本概念

Elastic 的底層是開源庫 Lucene。但是,你沒法直接用 Lucene,必須自己寫代碼去調用它的接口。Elastic 是 Lucene 的封裝,提供了 REST API 的操作接口,開箱即用。Elastic 的底層是開源庫 。但是,你沒法直接用 Lucene,必須自己寫代碼去調用它的接口。Elastic 是 Lucene 的封裝,提供了 REST API 的操作接口,開箱即用。

一、ES中的基本概念

cluster

代表一個集羣,集羣中有多個節點,其中有一個爲主節點,這個主節點是可以通過選舉產生的,主從節點是對於集羣內部來說的。es的一個概念就是去中心化,字面上理解就是無中心節點,這是對於集羣外部來說的,因爲從外部來看es集羣,在邏輯上是個整體,你與任何一個節點的通信和與整個es集羣通信是等價的。

shards

代表索引分片,es可以把一個完整的索引分成多個分片,這樣的好處是可以把一個大的索引拆分成多個,分佈到不同的節點上。構成分佈式搜索。分片的數量只能在索引創建前指定,並且索引創建後不能更改。

replicas

代表索引副本,es可以設置多個索引的副本,副本的作用一是提高系統的容錯性,當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率,es會自動對搜索請求進行負載均衡。

recovery

代表數據恢復或叫數據重新分佈,es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配,掛掉的節點重新啓動時也會進行數據恢復。

river

代表es的一個數據源,也是其它存儲方式(如:數據庫)同步數據到es的一個方法。它是以插件方式存在的一個es服務,通過讀取river中的數據並把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。

gateway

代表es索引快照的存儲方式,es默認是先把索引存放到內存中,當內存滿了時再持久化到本地硬盤。gateway對索引快照進行存儲,當這個es集羣關閉再重新啓動時就會從gateway中讀取索引備份數據。es支持多種類型的gateway,有本地文件系統(默認),分佈式文件系統,Hadoop的HDFS和amazon的s3雲存儲服務。

discovery.zen

代表es的自動發現節點機制,es是一個基於p2p的系統,它先通過廣播尋找存在的節點,再通過多播協議來進行節點之間的通信,同時也支持點對點的交互。

Transport

代表es內部節點或集羣與客戶端的交互方式,默認內部是使用tcp協議進行交互,同時它支持http協議(json格式)、thrift、servlet、memcached、zeroMQ等的傳輸協議(通過插件方式集成)。

二、生產環境集羣設計

在生產環境下,如果不修改elasticsearch節點的角色信息,在高數據量,高併發的場景下集羣容易出現腦裂等問題。

  默認情況下,elasticsearch 集羣中每個節點都有成爲主節點的資格,也都存儲數據,還可以提供查詢服務。這些功能是由兩個屬性控制的。
    1. node.master

               2. node.data
  默認情況下這兩個屬性的值都是true。

  node.master:這個屬性表示節點是否具有成爲主節點的資格
  注意:此屬性的值爲 true,並不意味着這個節點就是主節點。因爲真正的主節點,是由多個具有主節點資格的節點進行選舉產生的。所以,這個屬性只是代表這個節點是不是具有主節點選舉資格。

  node.data:這個屬性表示節點是否存儲數據。

四種組合

 1. node.master: true AND node.data: true AND node.ingest: true

  這種組合表示這個節點既有成爲主節點的資格,又可以存儲數據,還可以作爲預處理節點,這個時候如果某個節點被選舉成爲了真正的主節點,那麼他還要存儲數據,這樣對於這個節點的壓力就比較大了。
  elasticsearch 默認是:每個節點都是這樣的配置,在測試環境下這樣做沒問題。實際工作中建議不要這樣設置,這樣相當於 主節點 和 數據節點 的角色混合到一塊了。

 2. node.master: false AND node.data: true AND node.ingest: false

  這種組合表示這個節點沒有成爲主節點的資格,也就不參與選舉,只會存儲數據。這個節點我們稱爲 data(數據)節點。在集羣中需要單獨設置幾個這樣的節點負責存儲數據。後期提供存儲和查詢服務

 3. node.master: true AND node.data: false AND node.ingest: false

  這種組合表示這個節點不會存儲數據,有成爲主節點的資格,可以參與選舉,有可能成爲真正的主節點。這個節點我們稱爲master節點

 4. node.master: false AND node.data: false AND node.ingest: true

  這種組合表示這個節點即不會成爲主節點,也不會存儲數據,這個節點的意義是作爲一個 client(客戶端)節點,主要是針對海量請求的時候可以進行負載均衡。在新版 ElasticSearch5.x 之後該節點稱之爲:coordinate 節點,其中還增加了一個叫:ingest 節點,用於預處理數據(索引和搜索階段都可以用到),當然,作爲一般應用是不需要這個預處理節點做什麼額外的預處理過程,那麼這個節點和我們稱之爲 client 節點之間可以看做是等同的,我們在代碼中配置訪問節點就都可以配置這些 ingest 節點即可。

總結

  默認情況下,每個節點都有成爲主節點的資格,也會存儲數據,還會處理客戶端的請求。在一個生產集羣中我們可以對這些節點的職責進行劃分。

  建議集羣中設置 3臺 以上的節點作爲 master 節點【node.master: true node.data: false node.ingest:false】,這些節點只負責成爲主節點,維護整個集羣的狀態。
  再根據數據量設置一批 data節點【node.master: false node.data: true node.ingest:false】,這些節點只負責存儲數據,後期提供建立索引和查詢索引的服務,這樣的話如果用戶請求比較頻繁,這些節點的壓力也會比較大
  所以在集羣中建議再設置一批 ingest 節點也稱之爲 client 節點【node.master: false node.data: false node.ingest:true】,這些節點只負責處理用戶請求,實現請求轉發,負載均衡等功能。

  master節點:普通服務器即可(CPU 內存 消耗一般)
  data   節點:主要消耗磁盤,內存
  client | ingest  節點:普通服務器即可(如果要進行分組聚合操作的話,建議這個節點內存也分配多一點)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章