1感憾、故障檢測(cè)
集群中的每個(gè)節(jié)點(diǎn)都會(huì)定期地向集群中的其他節(jié)點(diǎn)發(fā)送PING消息趟章,以此交換各個(gè)節(jié)點(diǎn)狀態(tài)信息谅河,檢測(cè)各個(gè)節(jié)點(diǎn)狀態(tài):在線狀態(tài)、疑似下線狀態(tài)PFAIL、已下線狀態(tài)FAIL基公。
當(dāng)主節(jié)點(diǎn)A通過(guò)消息得知主節(jié)點(diǎn)B認(rèn)為主節(jié)點(diǎn)D進(jìn)入了疑似下線(PFAIL)狀態(tài)時(shí),
主節(jié)點(diǎn)A會(huì)在自己的clusterState.nodes字典中找到主節(jié)點(diǎn)D所對(duì)應(yīng)的clusterNode結(jié)構(gòu)轰豆,
并將主節(jié)點(diǎn)B的下線報(bào)告(failure report)添加到clusterNode結(jié)構(gòu)的fail_reports鏈表中
struct clusterNode {
//...
//記錄所有其他節(jié)點(diǎn)對(duì)該節(jié)點(diǎn)的下線報(bào)告
list*fail_reports;
//...
};
每個(gè)下線報(bào)告由一個(gè)clusterNodeFailReport結(jié)構(gòu):
struct clusterNodeFailReport{
//報(bào)告目標(biāo)節(jié)點(diǎn)已經(jīng)下線的節(jié)點(diǎn)
structclusterNode *node;
//最后一次從node節(jié)點(diǎn)收到下線報(bào)告的時(shí)間
mstime_ttime;
}typedef clusterNodeFailReport;
如果集群里面宿刮,半數(shù)以上的主節(jié)點(diǎn)都將主節(jié)點(diǎn)D報(bào)告為疑似下線,那么主節(jié)點(diǎn)D將被標(biāo)記為已下線(FAIL)狀態(tài)冤今,將主節(jié)點(diǎn)D標(biāo)記為已下線的節(jié)點(diǎn)會(huì)向集群廣播主節(jié)點(diǎn)D的FAIL消息,
所有收到FAIL消息的節(jié)點(diǎn)都會(huì)立即更新nodes里面主節(jié)點(diǎn)D狀態(tài)標(biāo)記為已下線缓艳。
將node****標(biāo)記為FAIL****需要滿足以下兩個(gè)條件:
1.有半數(shù)以上的主節(jié)點(diǎn)將node標(biāo)記為PFAIL狀態(tài)校摩。
2.當(dāng)前節(jié)點(diǎn)也將node標(biāo)記為PFAIL狀態(tài)。
2阶淘、多個(gè)從節(jié)點(diǎn)選主
選新主的過(guò)程基于Raft協(xié)議選舉方式來(lái)實(shí)現(xiàn)的
1)當(dāng)從節(jié)點(diǎn)發(fā)現(xiàn)自己的主節(jié)點(diǎn)進(jìn)行已下線狀態(tài)時(shí)衙吩,從節(jié)點(diǎn)會(huì)廣播一條
CLUSTERMSG_TYPE_FAILOVER_AUTH_REQUEST消息,要求所有收到這條消息溪窒,并且具有投票權(quán)的主節(jié)點(diǎn)向這個(gè)從節(jié)點(diǎn)投票
2)如果一個(gè)主節(jié)點(diǎn)具有投票權(quán)坤塞,并且這個(gè)主節(jié)點(diǎn)尚未投票給其他從節(jié)點(diǎn),那么主節(jié)點(diǎn)將向要求投票的從節(jié)點(diǎn)返回一條澈蚌,CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK消息摹芙,表示這個(gè)主節(jié)點(diǎn)支持從節(jié)點(diǎn)成為新的主節(jié)點(diǎn)
3)每個(gè)參與選舉的從節(jié)點(diǎn)都會(huì)接收CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK消息,并根據(jù)自己收到了多少條這種消息來(lái)統(tǒng)計(jì)自己獲得了多少主節(jié)點(diǎn)的支持
4)如果集群里有N個(gè)具有投票權(quán)的主節(jié)點(diǎn),那么當(dāng)一個(gè)從節(jié)點(diǎn)收集到大于等于集群N/2+1張支持票時(shí)宛瞄,這個(gè)從節(jié)點(diǎn)就成為新的主節(jié)點(diǎn)
5)如果在一個(gè)配置紀(jì)元沒(méi)有從能夠收集到足夠的支持票數(shù)瘫辩,那么集群進(jìn)入一個(gè)新的配置紀(jì)元,并再次進(jìn)行選主,直到選出新的主節(jié)點(diǎn)為止
3伐厌、故障轉(zhuǎn)移
當(dāng)從節(jié)點(diǎn)發(fā)現(xiàn)自己的主節(jié)點(diǎn)變?yōu)橐严戮€(FAIL)狀態(tài)時(shí)承绸,便嘗試進(jìn)Failover,以期成為新的主挣轨。
以下是故障轉(zhuǎn)移的執(zhí)行步驟:
1)從下線主節(jié)點(diǎn)的所有從節(jié)點(diǎn)中選中一個(gè)從節(jié)點(diǎn)
2)被選中的從節(jié)點(diǎn)執(zhí)行SLAVEOF NO NOE命令军熏,成為新的主節(jié)點(diǎn)
3)新的主節(jié)點(diǎn)會(huì)撤銷所有對(duì)已下線主節(jié)點(diǎn)的槽指派,并將這些槽全部指派給自己
4)新的主節(jié)點(diǎn)對(duì)集群進(jìn)行廣播PONG消息卷扮,告知其他節(jié)點(diǎn)已經(jīng)成為新的主節(jié)點(diǎn)
5)新的主節(jié)點(diǎn)開(kāi)始接收和處理槽相關(guān)的請(qǐng)求