记一次es集群启动异常

异常起因

由于致命查询导致es集群所有节点挂掉后,各节点重启后报SERVICE_UNAVAILABLE/1/state not recovered / initialized警告,其中有个节点始终无法加入集群,导致主节点一直等待无法初始化
猜测原因是由于集群三个节点都是master节点与data节点混合在一起,随着集群索引增多,数据量增加,master节点的负载较大,节点反应慢,导致集群发生脑裂

解决方法

master节点和data节点分离,原来已有的节点全部配置为data节点,
单独新开一个es实例启动做master节点(这里简单演示只配置了一个master节点,生产环境建议最少3个),这里为了使data节点快速确定master位置,我们将所有的data节点配置单拨到该主节点, 配置如下
discovery.zen.ping.multicast.enabled: false discovery.zen.ping.unicast.hosts: [“master_ip:9300”]

启动步骤

  1. 先单独启动master节点,为避免大量的IO和网络开销,要设置关闭自动分片,这样也能加快重启速度
curl -XPUT localhost:9200/_cluster/settings -d '{
  "transient" : {
    "cluster.routing.allocation.enable" : "none"
  }
}'
  1. 启动data节点加载分片数据,查看集群健康状态,观察分片数据初始化情况,等待所有主分片初始化完成
curl -XGET localhost:9200/_cat/health?v
  1. 通过以上接口查看到集群主分片数据都已经加载完成后,修改集群配置开启自动分片,等待所有副本分片完全加载,查看集群健康状态为green
curl -XPUT localhost:9200/_cluster/settings -d '{
  "transient" : {
    "cluster.routing.allocation.enable" : "all"
  }
}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章