1. Redis Sentinel 簡(jiǎn)介
redis 的主從復(fù)制模式下,一旦主節(jié)點(diǎn)由于故障不能提供服務(wù)晶框,需要人工將從節(jié)點(diǎn)晉升為主節(jié)點(diǎn)矩桂,再通知所有的程序把 master 地址統(tǒng)統(tǒng)改一遍喂链,然后重新上線。毫無(wú)疑問(wèn)彭谁,這種故障處理的方法是效率低下的,無(wú)法接受允扇。
于是缠局,redis 從 2.8 開(kāi)始正式提供了 sentinel 架構(gòu)來(lái)解決這個(gè)問(wèn)題。
redis sentinel 是 redis 的高可用實(shí)現(xiàn)方案蔼两,多個(gè) sentinel 進(jìn)程協(xié)同工作甩鳄,組成了一套分布式的架構(gòu),它負(fù)責(zé)持續(xù)監(jiān)控主從節(jié)點(diǎn)的健康狀況额划,當(dāng)主節(jié)點(diǎn)掛掉時(shí)妙啃,自動(dòng)選擇一個(gè)最優(yōu)的從節(jié)點(diǎn)切換為主節(jié)點(diǎn)。客戶端來(lái)連接集群時(shí)揖赴,會(huì)首先連接 sentinel馆匿,通過(guò) sentinel 來(lái)查詢主節(jié)點(diǎn)的地址,然后再去連接主節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交互燥滑。當(dāng)主節(jié)點(diǎn)發(fā)生故障時(shí)渐北,客戶端會(huì)重新向 sentinel 要地址,sentinel 會(huì)將最新的主節(jié)點(diǎn)地址告訴客戶端铭拧。如此應(yīng)用程序?qū)o(wú)需重啟即可自動(dòng)完成節(jié)點(diǎn)切換赃蛛。
2. Redis Sentinel 架構(gòu)及原理
我們以經(jīng)典的一主二從架構(gòu)來(lái)說(shuō)明的 sentinel 的原理。
(1) 主從切換的過(guò)程
- 每個(gè) sentinel 節(jié)點(diǎn)通過(guò)定期監(jiān)控 master 的健康狀況搀菩。
- 主節(jié)點(diǎn)出現(xiàn)故障呕臂,兩個(gè)從節(jié)點(diǎn)與主節(jié)點(diǎn)失去連接,主從復(fù)制失敗肪跋。
- sentinel 集群 發(fā)現(xiàn) master 故障后歧蒋,多個(gè) sentinel 節(jié)點(diǎn)對(duì)主節(jié)點(diǎn)的故障達(dá)成一致,在 3 個(gè) sentinel 節(jié)點(diǎn)中選擇一個(gè)作為 leader 州既,例如谜洽,選舉出 sentinel-0 節(jié)點(diǎn)作為 leader,來(lái)負(fù)責(zé)故障轉(zhuǎn)移吴叶。
- leader sentinel 把一個(gè) slave 節(jié)點(diǎn)提升為 master阐虚,并讓另一個(gè) slave 從新的 master 復(fù)制數(shù)據(jù),并告知客戶端新的 master 的信息晤郑。
- 故障的舊 master 上線后敌呈,leader sentinel 讓它從新的 master 復(fù)制數(shù)據(jù)。
以上就是 sentinel 集群進(jìn)行故障轉(zhuǎn)移的整體流程造寝,具體的一些細(xì)節(jié)還會(huì)詳細(xì)介紹磕洪,這里先總結(jié)一下 sentinel 集群在 redis 主從架構(gòu)高可用中起到的 4 個(gè)作用:
- 集群監(jiān)控
sentinel 節(jié)點(diǎn)會(huì)定期檢測(cè) redis 數(shù)據(jù)節(jié)點(diǎn)、其余 sentinel 節(jié)點(diǎn)是否故障诫龙。 - 故障轉(zhuǎn)移
實(shí)現(xiàn)從節(jié)點(diǎn)晉升為主節(jié)點(diǎn)并維護(hù)后續(xù)正確的主從關(guān)系析显。 - 配置中心
sentinel 架構(gòu)中,客戶端在初始化的時(shí)候連接的是 sentinel 集群签赃,從中獲取主節(jié)點(diǎn)信息谷异。 - 消息通知
sentinel 節(jié)點(diǎn)會(huì)將故障轉(zhuǎn)移的結(jié)果通知給客戶端。
此外锦聊,使用 sentinel 集群而不是單個(gè) sentinel 節(jié)點(diǎn)去監(jiān)控 redis 主從架構(gòu)有兩個(gè)好處:
- 對(duì)于節(jié)點(diǎn)的故障判斷由多個(gè) sentinel 節(jié)點(diǎn)共同完成歹嘹,這樣可以有效地防止誤判。
- sentinel 集群可以保證自身的高可用性孔庭,即某個(gè) sentinel 節(jié)點(diǎn)自身故障也不會(huì)影響 sentinel 集群的健壯性尺上。
(2) sentinel 集群的監(jiān)控功能詳解
sentinel 集群通過(guò)三個(gè)定時(shí)監(jiān)控任務(wù)完成對(duì)各個(gè)節(jié)點(diǎn)發(fā)現(xiàn)和監(jiān)控材蛛。
- 每隔10秒,每個(gè) sentinel 節(jié)點(diǎn)會(huì)向主節(jié)點(diǎn)和從節(jié)點(diǎn)發(fā)送 info 命令獲取 redis 主從架構(gòu)的最新情況怎抛。例如卑吭,發(fā)送
info replication
命令可以得到以下信息:
node01:6379> info replication
# Replication
role:master
connected_slaves:2
slave0:ip=192.168.239.102,port=6379,state=online,offset=18621889,lag=1
slave1:ip=192.168.239.103,port=6379,state=online,offset=18621889,lag=1
這樣,sentinel 集群就可以得知 master 和 slave 的基本信息马绝,通過(guò)向主節(jié)點(diǎn)執(zhí)行 info 命令豆赏,獲取從節(jié)點(diǎn)的信息,所以 sentinel 節(jié)點(diǎn)不需要顯式配置監(jiān)控從節(jié)點(diǎn)富稻,當(dāng)有新的從節(jié)點(diǎn)加入時(shí)都可以立刻感知出來(lái)掷邦,當(dāng) master 節(jié)點(diǎn)故障或者故障轉(zhuǎn)移后,可以通過(guò) info 命令實(shí)時(shí)更新 redis 主從信息椭赋。
- 每隔2秒耙饰,每個(gè) sentinel 節(jié)點(diǎn)會(huì)向 redis 數(shù)據(jù)節(jié)點(diǎn)的
__sentinel__:hello
這個(gè)channel(頻道)發(fā)送一條消息,消息的內(nèi)容是:
<sentinel ip> <sentinel port> <sentinel runId> <Sentinel 配置版本> <master name> <master ip> <master port> <master 配置版本>
每個(gè) sentinel 節(jié)點(diǎn)會(huì)訂閱該 channel纹份,來(lái)了解其他
sentinel節(jié)點(diǎn)以及它們對(duì)主節(jié)點(diǎn)的判斷,所以這個(gè)定時(shí)任務(wù)可以完成以下兩個(gè)工作:
- 發(fā)現(xiàn)新的 sentinel節(jié)點(diǎn):通過(guò)訂閱主節(jié)點(diǎn)的
__sentinel__:hello
了解其他的 sentinel 節(jié)點(diǎn)信息廷痘,如果是新加入的 sentinel 節(jié)點(diǎn)蔓涧,將該 sentinel 節(jié)點(diǎn)信息保存起來(lái),并與該 sentinel 節(jié)點(diǎn)創(chuàng)建連接 - sentinel 節(jié)點(diǎn)之間交換主節(jié)點(diǎn)的狀態(tài)笋额,用于確認(rèn) master 下線和故障處理的 leader 選舉元暴。
- 每隔1秒,每個(gè) sentinel 節(jié)點(diǎn)會(huì)向主節(jié)點(diǎn)兄猩、從節(jié)點(diǎn)茉盏、其余 sentinel 節(jié)點(diǎn)發(fā)送一條ping命令做一次心跳檢測(cè),來(lái)確認(rèn)這些節(jié)點(diǎn)是否可達(dá)枢冤。通過(guò)定時(shí)發(fā)送ping命令鸠姨,sentinel 節(jié)點(diǎn)對(duì)主節(jié)點(diǎn)、從節(jié)點(diǎn)淹真、其余 sentinel 節(jié)點(diǎn)都建立起連接讶迁,實(shí)現(xiàn)了對(duì)每個(gè)節(jié)點(diǎn)的監(jiān)控,這個(gè)定時(shí)任務(wù)是節(jié)點(diǎn)下線判定的重要依據(jù)核蘸。
(3) sdown(主觀下線) 和 odown(客觀下線)
主觀下線
每個(gè) sentinel 節(jié)點(diǎn)每隔1秒對(duì)主節(jié)
點(diǎn)巍糯、從節(jié)點(diǎn)、其他 sentinel 節(jié)點(diǎn)發(fā)送 ping 命令做心跳檢測(cè)客扎,當(dāng)這些節(jié)點(diǎn)超過(guò)
down-after-milliseconds
沒(méi)有進(jìn)行有效回復(fù)祟峦,sentinel節(jié)點(diǎn)就會(huì)認(rèn)為該節(jié)點(diǎn)下線,這個(gè)行為叫做主觀下線徙鱼。主觀下線是某個(gè) sentinel 節(jié)點(diǎn)的判斷宅楞,并不是 sentinel 集群的判斷,所以存在誤判的可能。客觀下線
當(dāng) sentinel 主觀下線的節(jié)點(diǎn)是主節(jié)點(diǎn)時(shí)咱筛,該 sentinel 節(jié)點(diǎn)會(huì)通過(guò)sentinel ismaster-down-by-addr
命令向其他 sentinel 節(jié)點(diǎn)詢問(wèn)對(duì)主節(jié)點(diǎn)的判斷搓幌,當(dāng)超過(guò)
<quorum>個(gè)數(shù)(quorum可配置)的 sentinel 節(jié)點(diǎn)認(rèn)為主節(jié)點(diǎn)確實(shí)有問(wèn)題,這時(shí)該 sentinel 節(jié)點(diǎn)會(huì)做出客觀下線的決定迅箩,這樣客觀下線的含義是比較明顯了溉愁,也就是大部分是 sentinel 節(jié)點(diǎn)都對(duì)主節(jié)點(diǎn)的下線做了同意的判定,那么這個(gè)判定就是客觀的饲趋。
介紹一下sentinel is-master-down-by-addr
命令:
sentinel is-master-down-by-addr <ip> <port> <current_epoch> <runid>
ip拐揭、port:詢問(wèn)此 ip:port 的 redis 進(jìn)程是否下線
current_epoch:當(dāng)前配置版本
runid:如果為當(dāng)前 sentinel 節(jié)點(diǎn)的 runid,則此命令用于申請(qǐng)自己成為故障處理的 leader奕塑,如果是*
堂污,則此命令用于向其他 sentinel 節(jié)點(diǎn)確認(rèn) master 是否下線。
此命令返回結(jié)果包括3個(gè)信息:
- down_state:目標(biāo) sentinel 節(jié)點(diǎn)對(duì)于主節(jié)點(diǎn)的下線判斷龄砰,1是下線盟猖,0是在線。
- leader_runid:當(dāng)leader_runid等于
*
時(shí)换棚,代表返回結(jié)果是說(shuō)明主節(jié)點(diǎn)是否不可達(dá)式镐,當(dāng) leader_runid 等于具體的runid,代表目標(biāo)節(jié)點(diǎn)同意該 runid sentinel 節(jié)點(diǎn)成為 leader固蚤。 - leader_epoch:leader 版本娘汞。
(4) 故障轉(zhuǎn)移前的 leader 選舉
當(dāng) sentinel 集群確認(rèn) master odown,需要選舉出一個(gè) leader 節(jié)點(diǎn)來(lái)進(jìn)行故障轉(zhuǎn)移夕玩,選舉過(guò)程如下:
- 每個(gè)在線的 sentinel 節(jié)點(diǎn)都有資格成為 leader你弦,當(dāng)它確認(rèn)主節(jié)點(diǎn)客觀下線時(shí)候,會(huì)向其他 sentinel 節(jié)點(diǎn)發(fā)送
sentinel is-master-down-by-addr
命令燎孟,要求將自己設(shè)置為leader禽作,比如 sentinel-0 節(jié)點(diǎn)首先發(fā)起請(qǐng)求成為 leader 的請(qǐng)求。 - 每個(gè) sentinel 節(jié)點(diǎn)都只能投出一票缤弦,于是當(dāng) sentinel-0 節(jié)點(diǎn)發(fā)起成為 leader 的請(qǐng)求后领迈,會(huì)得到 sentinel-1 和 sentinel-2 節(jié)點(diǎn)的投票,總共得到 2 票碍沐,得到的票數(shù)和以下公式計(jì)算的值作比較:
max(quorum, num(sentinels) / 2 + 1)
= max(2, 3 / 2 + 1)
= max(2, 1 + 1)
= max(2, 2)
= 2
當(dāng)?shù)玫降钠睌?shù) >= max(quorum, num(sentinels) / 2 + 1) 的值狸捅,那么該 sentinel 節(jié)點(diǎn)成為 leader,于是累提,sentinel-0 節(jié)點(diǎn)成為 leader尘喝。
比如下一個(gè)確認(rèn) master 客觀下線的 sentinel 節(jié)點(diǎn)為 sentinel-1,當(dāng)它發(fā)起成為 leader 的請(qǐng)求后斋陪,由于 sentinel-2 節(jié)點(diǎn)已經(jīng)給 sentinel-0 節(jié)點(diǎn)投過(guò)票了朽褪,于是它只能得到 sentinel-0 節(jié)點(diǎn)投的一票置吓,所以它不能成為 leader,而當(dāng) sentinel-2 發(fā)起請(qǐng)求成為 leader 的請(qǐng)求后缔赠,它一票都得不到衍锚。于是當(dāng)已經(jīng)選舉出 leader 后,就不會(huì)再繼續(xù)進(jìn)行選舉流程了嗤堰,因?yàn)槭菦](méi)有意義的戴质。
如果一次選舉沒(méi)有選舉出 leader,那么會(huì)進(jìn)行下一次選舉踢匣。
總結(jié):正常情況下告匠,哪個(gè) sentinel 節(jié)點(diǎn)最先確認(rèn) master 客觀下線,哪個(gè) sentinel 節(jié)點(diǎn)就會(huì)成為執(zhí)行故障轉(zhuǎn)移的 leader离唬。
(5) 故障轉(zhuǎn)移前新的 master 選擇
要執(zhí)行故障轉(zhuǎn)移后专,首先要從 slave 中選擇一個(gè)作為新的 master,選擇的準(zhǔn)則如下:
- 不選擇不健康的 slave输莺,以下?tīng)顟B(tài)的 slave 是不健康的:
- 主觀下線的 slave
- 大于等于5秒沒(méi)有回復(fù)過(guò) sentinel 節(jié)點(diǎn) ping 響應(yīng)的 slave
- 與 master 失聯(lián)超過(guò)
down-after-milliseconds * 10
秒的 slave
- 對(duì)健康的 slave 進(jìn)行排序
- 選擇 priority(從節(jié)點(diǎn)優(yōu)先級(jí)戚哎,可配置,默認(rèn)100)最低的從節(jié)點(diǎn)嫂用,如果有優(yōu)先級(jí)相同的節(jié)點(diǎn)建瘫,進(jìn)行下一步。注意如果這個(gè)值配置為0尸折,則代表禁止該節(jié)點(diǎn)成為 master。
- 選擇復(fù)制偏移量最大的從節(jié)點(diǎn)(復(fù)制的最完整)殷蛇,如果有復(fù)制偏移量相等的節(jié)點(diǎn)实夹,進(jìn)行下一步。
- 選擇 runid 最小的從節(jié)點(diǎn)粒梦。
然后就是 leader 進(jìn)行故障轉(zhuǎn)移的過(guò)程了:
- leader 對(duì)選擇出來(lái)的要成為 new master 的 slave 執(zhí)行
slaveof no one
命令讓其成為 new master亮航。 - leader 會(huì)向剩余的 slave 發(fā)送命令,讓它們成為 new master 的 slave匀们。
- leader 會(huì)將 old master 更新為 slave點(diǎn)缴淋,并保持著對(duì)其關(guān)注,當(dāng)其恢復(fù)后命令它去復(fù)制 new master泄朴。復(fù)制規(guī)則和
parallel-syncs
配置有關(guān)重抖。該配置指定了在執(zhí)行故障轉(zhuǎn)移時(shí),最多可以有多少個(gè) slave 同時(shí)對(duì) new master 進(jìn)行同步祖灰,這個(gè)數(shù)字越小钟沛,完成故障轉(zhuǎn)移所需的時(shí)間就越長(zhǎng)。 如果從服務(wù)器被設(shè)置為允許使用過(guò)期數(shù)據(jù)集(redis.conf 中slave-serve-stale-data
配置) 局扶,那么你可能不希望所有 slave 都在同一時(shí)間向 new master 發(fā)送同步請(qǐng)求恨统,因?yàn)楸M管復(fù)制過(guò)程的絕大部分步驟都不會(huì)阻塞slave叁扫, 但 slave 在 load new master 發(fā)來(lái)的 RDB 文件時(shí), 仍然會(huì)造成其在一段時(shí)間內(nèi)不能處理請(qǐng)求畜埋。如果全部 slave 一起對(duì) new master 進(jìn)行同步莫绣, 那么就可能會(huì)造成所有 slave 在短時(shí)間內(nèi)全部不可用的情況出現(xiàn)。你可以通過(guò)將這個(gè)值設(shè)為 1 來(lái)保證故障轉(zhuǎn)移后最多只有一個(gè) slave 處于不可用狀態(tài)悠鞍。但這樣的話对室,全部 slave 的數(shù)據(jù)同步就是串行的,這樣就會(huì)增加故障轉(zhuǎn)移整個(gè)過(guò)程的時(shí)間狞玛。
(6) Sentinel 集群的 quorum 和 majority
- quorum 是在 sentinel.conf中手動(dòng)配置的软驰,默認(rèn)為2
# sentinel monitor [master-name] [master-ip] [master-port] [quorum]
sentinel monitor mymaster 127.0.0.1 6379 2
意味著,只有 大于等于 quorum 數(shù)量都認(rèn)為 master 主觀下線心肪,sentinel 集群才會(huì)認(rèn)為 master 客觀下線锭亏。
- sentinel 集群執(zhí)行故障轉(zhuǎn)移時(shí)需要選舉 leader,此時(shí)涉及到 majority硬鞍,majority 代表 sentinel 集群中大部分 sentinel 節(jié)點(diǎn)的個(gè)數(shù)慧瘤,只有大于等于
max(quorum, majority)
個(gè)節(jié)點(diǎn)給某個(gè) sentinel 節(jié)點(diǎn)投票,才能確定該 sentinel 節(jié)點(diǎn)為 leader固该,majority 的計(jì)算方式為:num(sentinels) / 2 + 1
锅减,比如:
2 個(gè)節(jié)點(diǎn)的 sentinel 集群的 majority為 2
3 個(gè)節(jié)點(diǎn)的 sentinel 集群的 majority為 2
4 個(gè)節(jié)點(diǎn)的 sentinel 集群的 majority為 3
5 個(gè)節(jié)點(diǎn)的 sentinel 集群的 majority為 3
所以 sentinel 集群的節(jié)點(diǎn)個(gè)數(shù)至少為3個(gè),當(dāng)節(jié)點(diǎn)數(shù)為2時(shí)伐坏,假如一個(gè) sentinel 節(jié)點(diǎn)宕機(jī)怔匣,那么剩余一個(gè)節(jié)點(diǎn)是無(wú)法讓自己成為 leader 的,因?yàn)?個(gè)節(jié)點(diǎn)的 sentinel 集群的 majority 是 2桦沉,此時(shí)沒(méi)有2個(gè)節(jié)點(diǎn)都給剩余的節(jié)點(diǎn)投票每瞒,也就無(wú)法選擇出 leader,從而無(wú)法進(jìn)行故障轉(zhuǎn)移纯露。
另外最好把 quorum 的值設(shè)置為 <= majority剿骨,否則即使 sentinel 集群剩余的節(jié)點(diǎn)滿足 majority 數(shù),但是有可能不能滿足 quorum 數(shù)埠褪,那還是無(wú)法選舉 leader浓利,也就不能進(jìn)行故障轉(zhuǎn)移。
(7) configuration epoch
configuration epoch 是當(dāng)前 redis 主從架構(gòu)的配置版本號(hào)钞速,無(wú)論是 sentinel 集群選舉 leader 還是進(jìn)行故障轉(zhuǎn)移的時(shí)候贷掖,要求各 sentinel 節(jié)點(diǎn)得到的 configuration epoch 都是相同的,sentinel is-master-down-by-addr
命令中就必須有當(dāng)前配置版本號(hào)這個(gè)參數(shù)渴语,在選舉 leader 過(guò)程中羽资,如果本次選舉失敗,那么進(jìn)行下一次選舉遵班,就會(huì)更新配置版本號(hào)屠升,也就是說(shuō)潮改,每次選舉都對(duì)應(yīng)一個(gè)新的 configuration epoch,在故障轉(zhuǎn)移的過(guò)程中腹暖,也要求各個(gè) sentinel 節(jié)點(diǎn)使用相同的 configuration epoch汇在。
在故障轉(zhuǎn)移成功之后,sentinel leader 會(huì)更新生成最新的 master 配置脏答,configuration epoch 也會(huì)更新糕殉,然后同步給其他的 sentinel 節(jié)點(diǎn),這樣保證 sentinel 集群中保存的 master <-> slave 配置都是最新的殖告,當(dāng) client 請(qǐng)求的時(shí)候就會(huì)拿到最新的配置信息阿蝶。
(8) Redis Sentinel 可能出現(xiàn)的問(wèn)題以及解決辦法
- redis sentinel 無(wú)法保證數(shù)據(jù)完全不丟失,原因有兩個(gè):
(1) 異步復(fù)制導(dǎo)致的數(shù)據(jù)丟失
因?yàn)?master -> slave 的復(fù)制是異步的黄绩,所以可能有部分?jǐn)?shù)據(jù)還沒(méi)復(fù)制到 slave羡洁,master 就宕機(jī)了,此時(shí)這部分?jǐn)?shù)據(jù)就丟失了爽丹。
(2) redis 服務(wù)腦裂導(dǎo)致的數(shù)據(jù)丟失
腦裂筑煮,也就是說(shuō),某個(gè) master 所在機(jī)器突然網(wǎng)絡(luò)故障粤蝎,跟其他 slave 機(jī)器不能連接真仲,但是實(shí)際上 master 還運(yùn)行著。此時(shí)哨兵可能就會(huì)認(rèn)為 master 宕機(jī)了初澎,然后開(kāi)啟選舉秸应,將其他 slave 切換成了master,這個(gè)時(shí)候碑宴,集群里就會(huì)有兩個(gè)master灸眼,也就是所謂的腦裂。此時(shí)雖然某個(gè) slave 被切換成了 master墓懂,但是 client 還沒(méi)來(lái)得及切換到新的master,還繼續(xù)寫(xiě)向舊 master 的數(shù)據(jù)就丟失了霉囚。因?yàn)榕f master 再次恢復(fù)的時(shí)候捕仔,會(huì)被作為一個(gè) slave 掛到新的 master 上去,自己的數(shù)據(jù)會(huì)清空盈罐,重新從新的 master 復(fù)制數(shù)據(jù)榜跌。
redis 提供了兩個(gè)配置參數(shù)可以盡量丟失少的數(shù)據(jù):
min-slaves-to-write 1
min-slaves-max-lag 10
第一個(gè)參數(shù)表示 master 必須至少有一個(gè) slave 在進(jìn)行正常復(fù)制,否則就拒絕寫(xiě)請(qǐng)求盅粪,此時(shí) master 喪失可用性钓葫。
何為正常復(fù)制,何為異常復(fù)制票顾?這個(gè)就是由第二個(gè)參數(shù)控制的础浮,它的單位是秒帆调,
表示如果 10s 沒(méi)有收到從節(jié)點(diǎn)的反饋,就意味著從節(jié)點(diǎn)同步不正常豆同。
這樣可以把 master 宕機(jī)期間的數(shù)據(jù)丟失降低到可控范圍內(nèi)番刊。
- redis-2.6 版本提供的是 redis sentinel v1版本,但是功能性和健壯性都有一些問(wèn)題影锈,如果想使用 redis sentinel的話芹务,建議使用2.8以上版本,也就是v2版本的 redis sentinel鸭廷。