异常起因
由于致命查询导致es集群所有节点挂掉后,各节点重启后报SERVICE_UNAVAILABLE/1/state not recovered / initialized警告,其中有个节点始终无法加入集群,导致主节点一直等待无法初始化
猜测原因是由于集群三个节点都是master节点与data节点混合在一起,随着集群索引增多,数据量增加,master节点的负载较大,节点反应慢,导致集群发生脑裂
解决方法
master节点和data节点分离,原来已有的节点全部配置为data节点,
单独新开一个es实例启动做master节点(这里简单演示只配置了一个master节点,生产环境建议最少3个),这里为了使data节点快速确定master位置,我们将所有的data节点配置单拨到该主节点, 配置如下
discovery.zen.ping.multicast.enabled: false discovery.zen.ping.unicast.hosts: [“master_ip:9300”]
启动步骤
- 先单独启动master节点,为避免大量的IO和网络开销,要设置关闭自动分片,这样也能加快重启速度
curl -XPUT localhost:9200/_cluster/settings -d '{
"transient" : {
"cluster.routing.allocation.enable" : "none"
}
}'
- 启动data节点加载分片数据,查看集群健康状态,观察分片数据初始化情况,等待所有主分片初始化完成
curl -XGET localhost:9200/_cat/health?v
- 通过以上接口查看到集群主分片数据都已经加载完成后,修改集群配置开启自动分片,等待所有副本分片完全加载,查看集群健康状态为green
curl -XPUT localhost:9200/_cluster/settings -d '{
"transient" : {
"cluster.routing.allocation.enable" : "all"
}
}