1? 概述
在lvs的集群設(shè)計中龟梦,存在兩個地方不可用的問題全陨,Director不可用 和RS不可用
A)Director不可用
Director不可用整個系統(tǒng)將不可用看疙;SPoF? Single Point of Failure,單點故障導(dǎo)致
解決方案:
通過keepalived? heartbeat/corosync實現(xiàn)高可用
B)某RS不可用時
當(dāng)后端服務(wù)器存在某一臺RS不可用,Director依然會調(diào)度請求至此RS源葫,導(dǎo)致請求不能被處理痢掠,服務(wù)失敗
解決方案:由Director對各RS健康狀態(tài)進行檢查驱犹,失敗時禁用,成功時啟用
工具有keepalived?? heartbeat/corosync, ldirectord
同時足画,也可以通過腳本對后端RS監(jiān)控狀態(tài)進行監(jiān)控
檢測方式:
(a)網(wǎng)絡(luò)層檢測着绷,icmp
(b)傳輸層檢測,端口探測
(c)應(yīng)用層檢測锌云,請求某關(guān)鍵資源
RS全不可用時,可以通過back server或者sorryserver來提示用戶
本文將介紹ldirectord軟件和通過腳本的方式來實現(xiàn)對后端服務(wù)器的監(jiān)控
2? ldirectord
ldirectord:監(jiān)控和控制LVS守護進程吁脱,可管理LVS規(guī)則桑涎,該軟件解決了ipvs不能監(jiān)控后端服務(wù)器的狀態(tài)的問題。
原理是根據(jù)配置文件設(shè)定好的規(guī)則兼贡,去檢查服務(wù)器端的應(yīng)用是否正常攻冷。通過配置文件配置服務(wù)后,只要啟動該軟件就會按設(shè)定的規(guī)則進行配置和監(jiān)測
service?ldirectord??start
那么該軟件就會根據(jù)配置文件的規(guī)則創(chuàng)建lvs集群類型遍希,添加RS服務(wù)器等曼,并進行監(jiān)控,如果后端服務(wù)失敗凿蒜,就移除對應(yīng)的RS禁谦,如果RS服務(wù)恢復(fù)正常,會自動將RS加入調(diào)度計劃里废封。
如后端監(jiān)控http服務(wù)時州泊,該軟件會通過抓取后端服務(wù)器指定頁面的關(guān)鍵字來決定后端http服務(wù)是否正常運行。
.包名:ldirectord-3.9.6-0rc1.1.1.x86_64.rpm漂洋,該服務(wù)包在base源中沒有遥皂,要另外下載力喷,存在依賴性,下載后用yum安裝演训,解決依賴性弟孟。
.軟件相關(guān)文件:
/etc/ha.d/ldirectord.cf主配置文件
/usr/share/doc/ldirectord-3.9.6/ldirectord.cf配置模版
/usr/lib/systemd/system/ldirectord.service服務(wù)
/usr/sbin/ldirectord主程序
/var/log/ldirectord.log?日志
/var/run/ldirectord.ldirectord.pidpid文件
Ldirectord配置文件示例
checktimeout=3?#多長時間為超時時間,如3s沒回應(yīng)样悟,表示超時
checkinterval=1?#?檢查的間隔
autoreload=yes?#更改策略后拂募,不需要重啟服務(wù)就自動生效
fallback=127.0.0.1:80?#這里是定義sorry?server,當(dāng)后端的RS都宕機了,本機給用戶提示信息
logfile=“/var/log/ldirectord.log“#日志文件
quiescent=no?#down時yes權(quán)重為0乌奇,no為刪除
virtual=5#指定VS的FWM或IP:port
real=172.16.0.7:80?gate?2?#?gate表示dr模式没讲,2是權(quán)重
real=172.16.0.8:80?gate?1
fallback=127.0.0.1:80?gate#sorryserver
service=http
scheduler=wrr?#調(diào)度算法
checktype=negotiate?#默認就可以
checkport=80?#檢查端口,這樣會給服務(wù)器的負載加大礁苗。因為對外提供服務(wù)是80端口爬凑。可以另外在監(jiān)聽一個http的端口试伙,如listen8080但是這里有個矛盾嘁信,萬一80異常了,但是8080還是正常的疏叨,所以就導(dǎo)致了檢查結(jié)果不準確
request="index.html"?#監(jiān)控的主頁面
receive=“Test?Ldirectord"?#抓到默認的幾個字符潘靖,就認為服務(wù)是正常的。大小寫敏感
例子
#監(jiān)控后端的http服務(wù)是否正常蚤蔓,通過抓取后端服務(wù)器index.html頁面的關(guān)鍵字centos
cp??/usr/share/doc/ldirectord-3.9.6/ldirectord.cf?/etc/ha.d/ldirectord.cf
vim?/etc/ha.d/ldirectord.cf
virtual=192.168.32.66:80
real=192.168.32.63:80?gate
real=192.168.32.73:80?gate
fallback=127.0.0.1:80?gate
service=http
scheduler=wrr
#persistent=600
#netmask=255.255.255.255
protocol=tcp
checktype=negotiate
checkport=80
request="index.html"
receive="centos"
3? 自動化腳本
腳本使用需要注意事項
腳本中的VIP,RIP,RW(權(quán)重)監(jiān)控端口VPORT和RPORT這些變量需要根據(jù)實際情況進行調(diào)整
腳本設(shè)置了循環(huán)監(jiān)測卦溢,建議使用如下語句執(zhí)行腳本
nohup /PATH/TO/script/monitorRS.sh > /root/RSout.file 2>&1 &
腳本默認是3s對后端的RS進行一次監(jiān)測,該值可以根據(jù)實際情況調(diào)整秀又,命令在腳本后sleep 3.調(diào)整數(shù)字3即可单寂。
一鍵監(jiān)控腳本如下
?#!/bin/bash
#
#******************************************************************************
#Author:? ? ? ? ? ? ? Sunny
#Date:? ? ? ? ? ? ? ? 2017-10-23
#FileName:? ? ? ? ? ? monitorRS.sh
#version:? ? ? ? ? ? ? 1.0
#Your change info:
#Description:? ? ? ? ? For auto monitor RS status
#Copyright(C):? ? ? ? 2017? All rights reserved
#*****************************************************************************
echo "This is a script to auto monitor RS status,if you want to run the scirpt ,suggest you to excute cmd below"
echo
echo " nohup /PATH/TO/script/monitorRS.sh > /root/RSout.file 2>&1 & "
echo
echo "If you want to stop the script,you should run two cmds below,first you find the PID,then kill it"
echo
echo "ps -ef | grep monitorRS.sh"
echo? "kill -9 PID"
VIP=10.10.10.10
VPORT=80
RS=("192.168.32.63" "192.168.32.73")
RW=("3" "1")
RPORT=80
TYPE=g
LOG=/var/log/monitorRS.log
[ -e /var/log/monitorRS.log ] || touch /var/log/monitorRS.log
addrs() {
ipvsadm -a -t $VIP:$VPORT -r $1:$RPORT -$TYPE -w $2
[ $? -eq 0 ] && return 0 || return 1
}
delrs() {
ipvsadm -d -t $VIP:$VPORT -r $1:$RPORT
[ $? -eq 0 ] && return 0 || return 1
}
while true; do
let COUNT=0
for rip in ${RS[*]}; do
if ipvsadm -Ln | grep "$rip:$RPORT" &> /dev/null ; then
RS_status=online
else
RS_status=offline
fi
if $(curl --connect-timeout 1 http://$rip &>/dev/null) ; then
RS_test=yes
else
RS_test=no
fi
case $RS_test in
yes)
case ${RS_status} in
online)
echo "`date +'%F %H:%M:%S'`, $rip is work nice now." >> $LOG
;;
offline)
addrs $rip ${RW[$COUNT]} &>/dev/null;
addstatus=$?
if? [ $? -eq 0 ] && RS_status=online ;
then
echo "`date +'%F %H:%M:%S'`, $rip has been added to work." >> $LOG
else
echo "something wrong when add $rip back to work,please check,maybe your should do it manual"
echo "`date +'%F %H:%M:%S'`, $rip is added failed." >> $LOG
fi
;;
*)
echo "Something wrong when read RS_status"
;;
esac
;;
no)
case ${RS_status} in
online)
delrs $rip &>/dev/null;
[ $? -eq 0 ] && RS_status=offline && echo "`date +'%F %H:%M:%S'`, $rip is out of work,it is delete." >> $LOG
;;
offline)
echo "`date +'%F %H:%M:%S'`,$rip is still out of? work" >> $LOG
;;
*)
echo "Something wrong when read RS_status"
;;
esac
;;
*)
echo "Something wrong when read RS_test"
;;
esac
let COUNT++
done
sleep 3
done
4? 總結(jié)
本文通過介紹工具ldirectord 和 編寫了自己設(shè)計的腳本對后端的RS進行監(jiān)控,但是監(jiān)控的方式都是對后端RS進行輪詢訪問吐辙,這種方式會對服務(wù)器造成一定的壓力宣决,因此,使用時要權(quán)衡昏苏∽鸱校總體來說,如果要使用LVS進行調(diào)度贤惯,建議是要對后端RS進行監(jiān)控洼专,否則當(dāng)RS異常時,將導(dǎo)致服務(wù)不可用救巷。