進階-第106_es生產集羣版本升級之基於索引重建策略進行1.x到5.x的跨多個大版本的升級

 

es只能使用上一個大版本創建的索引。舉例來說,es 5.x可以使用es 2.x中的索引,但是不能使用es 1.x中的索引。

 

es 5.x如果使用過於陳舊的索引去啓動,就會啓動失敗

 

如果我們在運行es 2.x集羣,但是索引是從2.x之前的版本創建的,那麼在升級到es 5.x之前,我們需要刪除舊索引,或者reindex這些索引,用reindex in place的策略。

 

如果我們在運行es 1.x的集羣,有兩個選擇,首先升級到es 2.4.x,然後reindex所有的舊索引,用reindex in place的策略,接着升級到es 5.x。創建一個新的5.x集羣,然後使用reindex-from-remote直接從es 1.x集羣中將索引倒入5.x集羣中。

 

同時運行一個es 1.x的集羣,同時也運行一個es 5.x的集羣,然後用reindex功能,將es 1.x中的所有數據都導入到es 5.x集羣中

 

elasticsearch -d -Dpath.conf=/etc/elasticsearch

kill -SIGTERM 15516

 

chown -R elasticsearch /usr/local/elasticsearch-1.7.4

chown -R elasticsearch /usr/local/elasticsearch-5.5.0

 

curl -XPUT 'http://localhost:9200/forum/article/1?pretty' -d '

{

  "title": "first article",

  "content": "this is my first article"

}'

 

(1)reindex in place

 

將1.x中的索引reindex最簡單的方法,就是用elasticsearch migration plugin去做reindex。但是首先需要先升級到es 2.3.x或2.4.x。

 

migration plugin中提供的reindex工具會執行以下操作:

 

創建新的索引,但是會將es版本號拼接到索引名稱上,比如my_index-2.4.1,從舊的索引中拷貝mapping和setting。禁止新索引的refresh,並且將replica數量設置爲0.主要是爲了更高效的reindex。

 

將舊索引設置爲只讀,不允許新的數據寫入舊索引中

 

從舊索引中,將所有的數據reindex到新索引中

 

對新索引的refresh_interval和number_of_replicas的值重新設置爲舊索引中的值,並且等待索引變成green

 

將舊索引中存在的alias添加到新索引中

 

刪除舊的索引

 

給新索引添加一個alia,使用舊索引的名稱,比如將my_index設置爲my_index-2.4.1的alia

 

此時,就可以有一份新的2.x的索引,可以在5.x中使用

 

(2)upgrading with reindex-from-remote

 

如果在運行1.x cluster,並且想要直接遷移到5.x,而不是先遷移到2.x,那麼需要進行reindex-from-remote操作

 

es包含了向後兼容性的代碼,從而允許上一個大版本的索引可以直接在這個版本中使用。如果要直接從1.x升級到5.x,我們就需要自己解決向後兼容性的問題。

 

首先我們需要先建立一個新的5.x的集羣。5.x集羣需要能夠訪問1.x集羣的rest api接口。

 

對於每個我們想要遷移到5.x集羣的1.x的索引,需要做下面這些事情:

 

在5.x中創建新的索引,以及使用合適的mapping和setting,將refresh_interval設置爲-1,並且設置number_of_replica爲0,主要是爲了更快的reindex。

 

用reindex from remote的方式,在兩個集羣之間遷移index數據

 

curl -XPOST 'http://localhost:9201/_reindex?pretty' -d '

{

  "source": {

    "remote": {

      "host": "http://localhost:9200"

    },

    "index": "forum"

  },

  "dest": {

    "index": "forum"

  }

}'

 

remote cluster必須顯示在elasticsearch.yml中列入白名單中,使用reindex.remote.whitelist屬性

 

reinde過程中會使用的默認的on-heap buffer最大大小是100mb,如果要遷移的數據量很大,需要將batch size設置的很小,這樣每次同步的數據就很少,使用size參數。還可以設置socket_timeout和connect_timeout,比如下面:

 

POST _reindex

{

  "source": {

    "remote": {

      "host": "http://otherhost:9200",

      "socket_timeout": "1m",

      "connect_timeout": "10s"

    },

    "index": "source",

    "size": 10,

    "query": {

      "match": {

        "test": "data"

      }

    }

  },

  "dest": {

    "index": "dest"

  }

}

如果在後臺運行reindex job,就是將wait_for_completion設置爲false,那麼reindex請求會返回一個task_id,後面可以用來監控這個reindex progress的進度,GET _tasks/TASK_ID

 

一旦reindex完成之後,可以將refresh_interval和number_of_replicas設置爲正常的數值,比如30s和1

 

一旦新的索引完成了replica操作,就可以刪除舊的index了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章