LVS 之高可用性

1 概述

在lvs的集羣設計中，存在兩個地方不可用的問題，Director不可用和RS不可用

A)Director不可用

Director不可用整個系統將不可用；SPoF Single Point of Failure,單點故障導致

解決方案：

通過keepalived heartbeat/corosync 實現高可用

B)某RS不可用時

當後端服務器存在某一臺RS不可用，Director依然會調度請求至此RS，導致請求不能被處理，服務失敗

解決方案：由Director對各RS健康狀態進行檢查，失敗時禁用，成功時啓用

工具有keepalived heartbeat/corosync, ldirectord

同時，也可以通過腳本對後端RS監控狀態進行監控

檢測方式：

(a) 網絡層檢測，icmp

(b) 傳輸層檢測，端口探測

RS全不可用時，可以通過back server或者sorryserver來提示用戶

本文將介紹ldirectord軟件和通過腳本的方式來實現對後端服務器的監控

2 ldirectord

ldirectord：監控和控制LVS守護進程，可管理LVS規則，該軟件解決了ipvs不能監控後端服務器的狀態的問題。

原理是根據配置文件設定好的規則，去檢查服務器端的應用是否正常。通過配置文件配置服務後，只要啓動該軟件就會按設定的規則進行配置和監測

service ldirectord  start

那麼該軟件就會根據配置文件的規則創建lvs集羣類型，添加RS服務器，並進行監控，如果後端服務失敗，就移除對應的RS，如果RS服務恢復正常，會自動將RS加入調度計劃裏。

如後端監控http服務時，該軟件會通過抓取後端服務器指定頁面的關鍵字來決定後端http服務是否正常運行。

包名：ldirectord-3.9.6-0rc1.1.1.x86_64.rpm，該服務包在base源中沒有，要另外下載，存在依賴性，下載後用yum安裝，解決依賴性。

.軟件相關文件：

/etc/ha.d/ldirectord.cf主配置文件
/usr/share/doc/ldirectord-3.9.6/ldirectord.cf配置模版
/usr/lib/systemd/system/ldirectord.service服務
/usr/sbin/ldirectord主程序
/var/log/ldirectord.log 日誌
/var/run/ldirectord.ldirectord.pidpid文件

Ldirectord配置文件示例

checktimeout=3 #多長時間爲超時時間，如3s沒回應，表示超時
checkinterval=1 # 檢查的間隔
autoreload=yes #更改策略後，不需要重啓服務就自動生效
fallback=127.0.0.1:80 #這裏是定義sorry server,當後端的RS都宕機了，本機給用戶提示信息
logfile=“/var/log/ldirectord.log“#日誌文件
quiescent=no #down時yes權重爲0，no爲刪除
virtual=5#指定VS的FWM或IP：port
real=172.16.0.7:80 gate 2 # gate表示dr模式，2是權重
real=172.16.0.8:80 gate 1
fallback=127.0.0.1:80 gate#sorryserver
service=http
scheduler=wrr #調度算法
checktype=negotiate #默認就可以
checkport=80 #檢查端口，這樣會給服務器的負載加大。因爲對外提供服務是80端口。可以另外在監聽一個http的端口，如listen8080但是這裏有個矛盾，萬一80異常了，但是8080還是正常的，所以就導致了檢查結果不準確
request="index.html" #監控的主頁面
receive=“Test Ldirectord" #抓到默認的幾個字符，就認爲服務是正常的。大小寫敏感

例子

#監控後端的http服務是否正常，通過抓取後端服務器index.html頁面的關鍵字centos

cp  /usr/share/doc/ldirectord-3.9.6/ldirectord.cf /etc/ha.d/ldirectord.cf
vim /etc/ha.d/ldirectord.cf
virtual=192.168.32.66:80
   real=192.168.32.63:80 gate
   real=192.168.32.73:80 gate
   fallback=127.0.0.1:80 gate
    service=http
    scheduler=wrr
    #persistent=600
   #netmask=255.255.255.255
    protocol=tcp
   checktype=negotiate
    checkport=80
   request="index.html"
receive="centos"

3 自動化腳本

腳本使用需要注意事項

腳本中的VIP,RIP,RW（權重）監控端口VPORT和RPORT這些變量需要根據實際情況進行調整

腳本設置了循環監測，建議使用如下語句執行腳本

nohup /PATH/TO/script/monitorRS.sh > /root/RSout.file 2>&1 &

腳本默認是3s對後端的RS進行一次監測，該值可以根據實際情況調整，命令在腳本後sleep 3.調整數字3即可。

一鍵監控腳本如下

#!/bin/bash
#
#******************************************************************************
#Author:               Sunny
#Date:                 2017-10-23
#FileName:             monitorRS.sh
#version:              1.0
#Your change info:     
#Description:          For auto monitor RS status
#Copyright(C):         2017  All rights reserved
#*****************************************************************************
echo "This is a script to auto monitor RS status,if you want to run the scirpt ,suggest you to excute cmd below"
echo
echo " nohup /PATH/TO/script/monitorRS.sh > /root/RSout.file 2>&1 & "
echo
echo "If you want to stop the script,you should run two cmds below,first you find the PID,then kill it"
echo
echo "ps -ef | grep monitorRS.sh"
echo  "kill -9 PID"

VIP=10.10.10.10
VPORT=80
RS=("192.168.32.63" "192.168.32.73")
RW=("3" "1")
RPORT=80
TYPE=g
LOG=/var/log/monitorRS.log
[ -e /var/log/monitorRS.log ] || touch /var/log/monitorRS.log

addrs() {
  ipvsadm -a -t $VIP:$VPORT -r $1:$RPORT -$TYPE -w $2
  [ $? -eq 0 ] && return 0 || return 1
}

delrs() {
  ipvsadm -d -t $VIP:$VPORT -r $1:$RPORT
  [ $? -eq 0 ] && return 0 || return 1
}


while true; do
  let COUNT=0
for rip in ${RS[*]}; do

    if ipvsadm -Ln | grep "$rip:$RPORT" &> /dev/null ; then
      RS_status=online
    else
      RS_status=offline
    fi

	if $(curl --connect-timeout 1 http://$rip &>/dev/null) ; then
    RS_test=yes
	else
	RS_test=no
	fi

case $RS_test in
yes)
      case ${RS_status} in
	  online)
	  echo "`date +'%F %H:%M:%S'`, $rip is work nice now." >> $LOG
	  ;;
	  offline)
         addrs $rip ${RW[$COUNT]} &>/dev/null;
		 addstatus=$?
         	if  [ $? -eq 0 ] && RS_status=online ;
		 	then
		 		echo "`date +'%F %H:%M:%S'`, $rip has been added to work." >> $LOG
			else
			    echo "something wrong when add $rip back to work,please check,maybe your should do it manual"
		    	 echo "`date +'%F %H:%M:%S'`, $rip is added failed." >> $LOG
			fi
	  ;;
	  *)
	  echo "Something wrong when read RS_status"
	  ;;
	  esac
;;
no)
      case ${RS_status} in
	  online)
         delrs $rip &>/dev/null;
         [ $? -eq 0 ] && RS_status=offline && echo "`date +'%F %H:%M:%S'`, $rip is out of work,it is delete." >> $LOG
		 ;;
	  offline)
		 echo "`date +'%F %H:%M:%S'`,$rip is still out of  work" >> $LOG
		 ;;
        *)
	  echo "Something wrong when read RS_status"
	  ;;
	  esac
;;
*)
   echo "Something wrong when read RS_test"
;;
esac
    let COUNT++
  done
  sleep 3
done

4 總結

本文通過介紹工具ldirectord 和編寫了自己設計的腳本對後端的RS進行監控，但是監控的方式都是對後端RS進行輪詢訪問，這種方式會對服務器造成一定的壓力，因此，使用時要權衡。總體來說，如果要使用LVS進行調度，建議是要對後端RS進行監控，否則當RS異常時，將導致服務不可用。

LVS 之高可用性

DAPPER 事務 TRANSACTION

數據庫之 Mysql日誌介紹

Python 關於日誌的分析

數據庫之 Mysql複製概念介紹

Nginx 之 http配置段介紹

Nginx 之 stub_status log gzip rewrite referer header 模塊介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

LVS 之 高可用性

LVS 之高可用性