概述
分布式的集群很容易有“選舉”的需求烫饼,所謂的選舉可以先簡(jiǎn)單的理解為選出集群多個(gè)節(jié)點(diǎn)的“老大”(leader)
例子1 —— 主從節(jié)點(diǎn)選舉
舉個(gè)不是很恰當(dāng)?shù)睦樱╩ysql不是使用zk來(lái)做選舉的)说订,我們使用mysql時(shí)候蜘腌,為了做到高可用,可能會(huì)同時(shí)布兩個(gè)mysql,一主多備咆耿。這個(gè)時(shí)候羹与,如果master節(jié)點(diǎn)掛了故硅,多個(gè)slave節(jié)點(diǎn)哪一個(gè)會(huì)被選為主節(jié)點(diǎn)?這里就涉及到“選舉”纵搁,從多個(gè)slave節(jié)點(diǎn)里選出一個(gè)新的master吃衅。
例子2 —— 定時(shí)任務(wù)
又比如,我們經(jīng)常有定時(shí)任務(wù)的需求腾誉,為了保證高可用徘层【唬可能跑定時(shí)任務(wù)的服務(wù)會(huì)部署多臺(tái)。
假設(shè)有這樣一個(gè)任務(wù)趣效,它會(huì)掃表A瘦癌,然后將這個(gè)表A的數(shù)據(jù)插入到另一個(gè)表B里。當(dāng)只有一臺(tái)機(jī)器跑這個(gè)任務(wù)跷敬,沒(méi)有問(wèn)題讯私。但是如果同一時(shí)刻,有多臺(tái)機(jī)器在跑西傀,數(shù)據(jù)就會(huì)重復(fù)插入到表B里斤寇。
所以理想的情況可能是,同一時(shí)刻只有一臺(tái)機(jī)器在跑定時(shí)任務(wù)拥褂。當(dāng)這臺(tái)機(jī)器掛掉了娘锁,立刻在其他機(jī)器里面選舉出一臺(tái)機(jī)器跑定時(shí)任務(wù)。
使用zookeeper來(lái)做集群的選舉
總的來(lái)說(shuō)饺鹃,選舉這種需求還是不少的莫秆。zookeeper是一個(gè)成熟的分布式協(xié)調(diào)服務(wù),通過(guò)使用zookeeper我們可以較為方便的實(shí)現(xiàn)集群的選舉尤慰。
leader選舉 —— 非公平模式
Zookeeper節(jié)點(diǎn)類(lèi)型
要想了解如何使用zookeeper實(shí)現(xiàn)選舉馏锡,首先需要了解zookeeper節(jié)點(diǎn)的類(lèi)型
當(dāng)我們創(chuàng)建zookeeper節(jié)點(diǎn)時(shí)候,可以填一個(gè)CreateMode參數(shù)伟端,通過(guò)這個(gè)參數(shù)可以指定創(chuàng)建的節(jié)點(diǎn)的類(lèi)型杯道。
1)PERSISTENT 該值會(huì)永久存在,哪怕創(chuàng)建該節(jié)點(diǎn)的機(jī)器掛了责蝠,節(jié)點(diǎn)數(shù)據(jù)依然會(huì)存在党巾。注意,如果有兩臺(tái)機(jī)器創(chuàng)建了重復(fù)的key霜医,比如/data齿拂,第二次創(chuàng)建會(huì)失敗。
2)PERSISTENT_SEQUENTIAL 比如我們創(chuàng)建一個(gè)/test節(jié)點(diǎn)肴敛,zk會(huì)在后面加一串?dāng)?shù)字比如 /test/test0000000001署海。如果重復(fù)創(chuàng)建,會(huì)創(chuàng)建一個(gè)/test/test0000000002節(jié)點(diǎn)(一直往后加1医男,可以多次創(chuàng)建)
3)EPHEMERAL 臨時(shí)節(jié)點(diǎn)砸狞,當(dāng)創(chuàng)建該節(jié)點(diǎn)的機(jī)器失連了,創(chuàng)建的這個(gè)節(jié)點(diǎn)會(huì)被刪除
4)EPHEMERAL_SEQUENTIAL 和 PERSISTENT_SEQUENTIAL差不多的镀梭,只是節(jié)點(diǎn)是臨時(shí)的刀森。
使用zookeeper實(shí)現(xiàn)非公平模式選舉
了解了zookeeper節(jié)點(diǎn)的類(lèi)型,我們就可以通過(guò)zk來(lái)實(shí)現(xiàn)選舉报账。
什么是非公平模式選舉
所謂的非公平模式的選舉是相對(duì)的研底,假設(shè)有10臺(tái)機(jī)器進(jìn)行選舉埠偿,最后會(huì)選到哪一個(gè)機(jī)器,是完全隨機(jī)的(看誰(shuí)搶的快)榜晦。比如選到了A機(jī)器冠蒋。某一時(shí)刻,A機(jī)器掛掉了乾胶,這時(shí)候會(huì)再次進(jìn)行選舉浊服,這一次的選舉依然是隨機(jī)的。與某個(gè)節(jié)點(diǎn)是不是先來(lái)的胚吁,是不是等了很久無(wú)關(guān)。這種選舉算法愁憔,就是非公平的算法腕扶。
非公平選舉算法
1)首先通過(guò)zk創(chuàng)建一個(gè) /server 的PERSISTENT節(jié)點(diǎn)
2)多臺(tái)機(jī)器同時(shí)創(chuàng)建 /server/leader EPHEMERAL子節(jié)點(diǎn)
3)子節(jié)點(diǎn)只能創(chuàng)建一個(gè),后創(chuàng)建的會(huì)失敗吨掌。創(chuàng)建成功的節(jié)點(diǎn)被選為leader節(jié)點(diǎn)
4)所有機(jī)器監(jiān)聽(tīng) /server/leader 的變化半抱,一旦節(jié)點(diǎn)被刪除,就重新進(jìn)行選舉膜宋,搶占式地創(chuàng)建 /server/leader節(jié)點(diǎn)窿侈,誰(shuí)創(chuàng)建成功誰(shuí)就是leader。
非公平選舉算法實(shí)現(xiàn)示例
public static void main(String[] args) throws Exception {
zk = new ZooKeeper("127.0.0.1:2181", FairSelectDemo.SESSION_TIMEOUT, new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
}
});
//zk啟動(dòng)后試著進(jìn)行選舉
selection();
TimeUnit.HOURS.sleep(1); //阻塞住
zk.close();
}
private static void selection() throws Exception {
try {
//1秋茫、創(chuàng)建/server(這個(gè)通過(guò)zkCli創(chuàng)建好了)史简,參數(shù)3表示公有節(jié)點(diǎn),誰(shuí)都可以改
zk.create("/server/leader", "node1".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL);
//2肛著、沒(méi)有拋異常圆兵,表示創(chuàng)建節(jié)點(diǎn)成功了
System.out.println("選舉成功");
} catch (KeeperException.NodeExistsException e) {
System.out.println("選舉失敗");
} finally {
//3、監(jiān)聽(tīng)節(jié)點(diǎn)刪除事件枢贿,如果刪除了殉农,重新進(jìn)行選舉
zk.getData("/server/leader", new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
try {
if (Objects.equals(event.getType(), Event.EventType.NodeDeleted)) {
selection();
}
} catch (Exception e) {
}
}
}, null);
}
}
測(cè)試結(jié)果:
被選舉的客戶(hù)端被close掉后
公平選舉
非公平選舉的區(qū)別是,增加了先來(lái)的優(yōu)先被選為leader的保證局荚。
公平選舉算法
1)首先通過(guò)zk創(chuàng)建一個(gè) /server 的PERSISTENT節(jié)點(diǎn)
2)多臺(tái)機(jī)器同時(shí)創(chuàng)建 /server/leader EPHEMERAL_SEQUENTIAL子節(jié)點(diǎn)
3)/server/leader000000xxx 后面數(shù)字最小的那個(gè)節(jié)點(diǎn)被選為leader節(jié)點(diǎn)
4)所有機(jī)器監(jiān)聽(tīng) 前一個(gè) /server/leader 的變化超凳,比如 (leader00001監(jiān)聽(tīng) leader00002) 一旦節(jié)點(diǎn)被刪除,就獲取/server下所有l(wèi)eader耀态,如果自己的數(shù)字最小那么自己就被選為leader
公平選舉算法的實(shí)現(xiàn)
public static void main(String[] args) throws Exception {
zk = new ZooKeeper("127.0.0.1:2181", UnFairSelectDemo.SESSION_TIMEOUT, new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
}
});
String leaderPath = "/server/leader";
//1轮傍、創(chuàng)建/server(這個(gè)通過(guò)zkCli創(chuàng)建好了),注意這里是EPHEMERAL_SEQUENTIAL的
//2茫陆、和非公平模式不一樣金麸,只需要?jiǎng)?chuàng)建一次節(jié)點(diǎn)就可以了
nodeVal = zk.create(leaderPath, "node1".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);
//System.out.println(nodeVal);
//啟動(dòng)后試著進(jìn)行選舉
selection();
TimeUnit.HOURS.sleep(1); //阻塞住
zk.close();
}
private static void selection() throws Exception {
//2、遍歷/server下的子節(jié)點(diǎn)簿盅,看看自己的序號(hào)是不是最小的
List<String> children = zk.getChildren("/server", null);
Collections.sort(children);
String formerNode = ""; //前一個(gè)節(jié)點(diǎn)挥下,用于監(jiān)聽(tīng)
for (int i = 0; i < children.size(); i++) {
String node = children.get(i);
if (nodeVal.equals("/server/" + node)) {
if (i == 0) {
//第一個(gè)
System.out.println("我被選為leader節(jié)點(diǎn)了");
} else {
formerNode = children.get(i - 1);
}
}
}
if (!"".equals(formerNode)) {
//自己不是第一個(gè)揍魂,如果是第一個(gè)formerNode應(yīng)該沒(méi)有值
System.out.println("我競(jìng)選失敗了");
//3、監(jiān)聽(tīng)前一個(gè)節(jié)點(diǎn)的刪除事件棚瘟,如果刪除了现斋,重新進(jìn)行選舉
zk.getData("/server/" + formerNode, new Watcher() {
@Override
public void process(WatchedEvent event) {
System.out.println(event.getType() + "---" + event.getPath() + "---" + event.getState());
try {
if (Objects.equals(event.getType(), Event.EventType.NodeDeleted)) {
selection();
}
} catch (Exception e) {
}
}
}, null);
}
//System.out.println("children:" + children);
}
測(cè)試結(jié)果
關(guān)閉被選為的leader節(jié)點(diǎn)后
總結(jié)
通過(guò)zookeeper的api,我們可以很容易實(shí)現(xiàn)集群的選舉偎蘸。當(dāng)然此處介紹的zookeeper的選舉比較適合于機(jī)器平權(quán)的情況庄蹋,比如三臺(tái)被選舉的機(jī)器是一模一樣的。如果有優(yōu)先級(jí)迷雪,有調(diào)度限书,需要增加其他算法。這種方式就不適合了章咧。
但是其實(shí)上述的寫(xiě)法不是很?chē)?yán)謹(jǐn)倦西,比如公平選舉算法,如果中間一個(gè)節(jié)點(diǎn)掛掉了赁严,假設(shè)有01扰柠,02,03疼约,04節(jié)點(diǎn) 比如02掛掉了卤档,03一直監(jiān)聽(tīng)著02,那么這個(gè)時(shí)候03應(yīng)該改為監(jiān)聽(tīng)01程剥,否則劝枣,當(dāng)01掛了,沒(méi)有任何節(jié)點(diǎn)能被選為leader倡缠。 除此之外哨免,各種異常狀態(tài)都需要我們自己處理。
為了更加方便的使用選舉昙沦,我們可以使用Curator琢唾。Curator為我們封裝了操作zookeeper底層的各種細(xì)節(jié),比使用原生的zookeeper更為方便盾饮。下一篇博客會(huì)介紹下Curator的使用采桃。