腦裂產生以及解決辦法(轉載)

腦裂產生以及解決辦法

原始鏈接:https://blog.csdn.net/varyall/article/details/80427606

轉載varyall 最後發佈於2018-05-24 00:01:34 閱讀數 24694  收藏

展開

 

2.2 腦裂

      在高可用(HA)系統中,當聯繫2個節點的“心跳線”斷開時,本來爲一整體、動作協調的HA系統,就分裂成爲2個獨立的個體。由於相互失去了聯繫,都以爲是對方出了故障。兩個節點上的HA軟件像“裂腦人”一樣,爭搶“共享資源”、爭起“應用服務”,就會發生嚴重後果——或者共享資源被瓜分、2邊“服務”都起不來了;或者2邊“服務”都起來了,但同時讀寫“共享存儲”,導致數據損壞(常見如數據庫輪詢着的聯機日誌出錯)。

   對付HA系統“裂腦”的對策,目前達成共識的的大概有以下幾條:

    1)添加冗餘的心跳線,例如:雙線條線(心跳線也HA),儘量減少“裂腦”發生機率;

    2)啓用磁盤鎖。正在服務一方鎖住共享磁盤,“裂腦”發生時,讓對方完全“搶不走”共享磁盤資源。但使用鎖磁盤也會有一個不小的問題,如果佔用共享盤的一方不主動“解鎖”,另一方就永遠得不到共享磁盤。現實中假如服務節點突然死機或崩潰,就不可能執行解鎖命令。後備節點也就接管不了共享資源和應用服務。於是有人在HA中設計了“智能”鎖。即:正在服務的一方只在發現心跳線全部斷開(察覺不到對端)時才啓用磁盤鎖。平時就不上鎖了。

    3)設置仲裁機制。例如設置參考IP(如網關IP),當心跳線完全斷開時,2個節點都各自ping一下參考IP,不通則表明斷點就出在本端。不僅“心跳”、還兼對外“服務”的本端網絡鏈路斷了,即使啓動(或繼續)應用服務也沒有用了,那就主動放棄競爭,讓能夠ping通參考IP的一端去起服務。更保險一些,ping不通參考IP的一方乾脆就自我重啓,以徹底釋放有可能還佔用着的那些共享資源。

2.2.1 腦裂產生的原因

  一般來說,裂腦的發生,有以下幾種原因:

高可用服務器對之間心跳線鏈路發生故障,導致無法正常通信。

因心跳線壞了(包括斷了,老化)。

因網卡及相關驅動壞了,ip配置及衝突問題(網卡直連)。

因心跳線間連接的設備故障(網卡及交換機)。

因仲裁的機器出問題(採用仲裁的方案)。

高可用服務器上開啓了 iptables防火牆阻擋了心跳消息傳輸。

高可用服務器上心跳網卡地址等信息配置不正確,導致發送心跳失敗。

其他服務配置不當等原因,如心跳方式不同,心跳廣插衝突、軟件Bug等。

    提示: Keepalived配置裏同一 VRRP實例如果 virtual_router_id兩端參數配置不一致也會導致裂腦問題發生。

 

2.2.2 常見的解決方案

  在實際生產環境中,我們可以從以下幾個方面來防止裂腦問題的發生:

  同時使用串行電纜和以太網電纜連接,同時用兩條心跳線路,這樣一條線路壞了,另一個還是好的,依然能傳送心跳消息。

  當檢測到裂腦時強行關閉一個心跳節點(這個功能需特殊設備支持,如Stonith、feyce)。相當於備節點接收不到心跳消患,通過單獨的線路發送關機命令關閉主節點的電源。

  做好對裂腦的監控報警(如郵件及手機短信等或值班).在問題發生時人爲第一時間介入仲裁,降低損失。例如,百度的監控報警短倍就有上行和下行的區別。報警消息發送到管理員手機上,管理員可以通過手機回覆對應數字或簡單的字符串操作返回給服務器.讓服務器根據指令自動處理相應故障,這樣解決故障的時間更短.

  當然,在實施高可用方案時,要根據業務實際需求確定是否能容忍這樣的損失。對於一般的網站常規業務.這個損失是可容忍的。

2.3 如何進行腦裂情況監控

2.3.1 在什麼服務器上進行監控?

  在備服務器上進行監控,可以使用zabbix監控,參考http://www.cnblogs.com/clsn/p/7885990.html

2.3.2 監控什麼信息?

  備上面出現vip情況:

           1)腦裂情況出現

           2)正常主備切換也會出現

2.3.3 編寫監控腦裂腳本

[root@lb02 scripts]# vim check_keepalived.sh
#!/bin/bash

while true
do
if [ `ip a show eth0 |grep 10.0.0.3|wc -l` -ne 0 ]
then
    echo "keepalived is error!"
else
    echo "keepalived is OK !"
fi
done

 

         編寫完腳本後要給腳本賦予執行權限

2.3.4 測試 確保兩臺負載均衡能夠正常負載

[root@lb01 ~]# curl -H Host:www.etiantian.org 10.0.0.5
web01 www
[root@lb01 ~]# curl -H Host:www.etiantian.org 10.0.0.6
web01 www
[root@lb01 ~]# curl -H Host:bbs.etiantian.org 10.0.0.6
web02 bbs
 [root@lb01 ~]# curl -H Host:www.etiantian.org 10.0.0.5
web03 www 

 

 

 

https://www.cnblogs.com/clsn/p/8052649.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章