概述
Zookeeper 作為一個(gè)分布式的服務(wù)框架钦椭,主要用來(lái)解決分布式集群中應(yīng)用系統(tǒng)的一致性問(wèn)題娄柳,它能提供基于類似于文件系統(tǒng)的目錄節(jié)點(diǎn)樹方式的數(shù)據(jù)存儲(chǔ),但是 Zookeeper 并不是用來(lái)專門存儲(chǔ)數(shù)據(jù)的,它的作用主要是用來(lái)維護(hù)和監(jiān)控你存儲(chǔ)的數(shù)據(jù)的狀態(tài)變化。
Zookeeper 從設(shè)計(jì)模式角度來(lái)看鬼悠,是一個(gè)基于觀察者模式設(shè)計(jì)的分布式服務(wù)管理框架,它負(fù)責(zé)存儲(chǔ)和管理大家都關(guān)心的數(shù)據(jù)亏娜,然后接受觀察者的注冊(cè)焕窝,一旦這些數(shù)據(jù)的狀態(tài)發(fā)生變化,Zookeeper 就將負(fù)責(zé)通知已經(jīng)在 Zookeeper 上注冊(cè)的那些觀察者做出相應(yīng)的反應(yīng)维贺,從而實(shí)現(xiàn)集群中類似 Master/Slave 管理模式
數(shù)據(jù)模型
Zookeeper 會(huì)維護(hù)一個(gè)具有層次關(guān)系的數(shù)據(jù)結(jié)構(gòu)它掂,它非常類似于一個(gè)標(biāo)準(zhǔn)的文件系統(tǒng),如圖 1 所示:
圖 1 Zookeeper 數(shù)據(jù)結(jié)構(gòu)
Zookeeper 這種數(shù)據(jù)結(jié)構(gòu)有如下這些特點(diǎn):
每個(gè)子目錄項(xiàng)如 NameService 都被稱作為 znode溯泣,這個(gè) znode 是被它所在的路徑唯一標(biāo)識(shí)虐秋,如 Server1 這個(gè) znode 的標(biāo)識(shí)為 /NameService/Server1
znode 可以有子節(jié)點(diǎn)目錄,并且每個(gè) znode 可以存儲(chǔ)數(shù)據(jù)垃沦,注意 EPHEMERAL 類型的目錄節(jié)點(diǎn)不能有子節(jié)點(diǎn)目錄
znode 是有版本的客给,每個(gè) znode 中存儲(chǔ)的數(shù)據(jù)可以有多個(gè)版本,也就是一個(gè)訪問(wèn)路徑中可以存儲(chǔ)多份數(shù)據(jù)
znode 可以是臨時(shí)節(jié)點(diǎn)肢簿,一旦創(chuàng)建這個(gè) znode 的客戶端與服務(wù)器失去聯(lián)系靶剑,這個(gè) znode 也將自動(dòng)刪除,Zookeeper 的客戶端和服務(wù)器通信采用長(zhǎng)連接方式池充,每個(gè)客戶端和服務(wù)器通過(guò)心跳來(lái)保持連接桩引,這個(gè)連接狀態(tài)稱為 session,如果 znode 是臨時(shí)節(jié)點(diǎn)收夸,這個(gè) session 失效坑匠,znode 也就刪除了
znode 的目錄名可以自動(dòng)編號(hào),如 App1 已經(jīng)存在卧惜,再創(chuàng)建的話厘灼,將會(huì)自動(dòng)命名為 App2
znode 可以被監(jiān)控,包括這個(gè)目錄節(jié)點(diǎn)中存儲(chǔ)的數(shù)據(jù)的修改序苏,子節(jié)點(diǎn)目錄的變化等手幢,一旦變化可以通知設(shè)置監(jiān)控的客戶端,這個(gè)是 Zookeeper 的核心特性忱详,Zookeeper 的很多功能都是基于這個(gè)特性實(shí)現(xiàn)的围来,后面在典型的應(yīng)用場(chǎng)景中會(huì)有實(shí)例介紹
典型應(yīng)用
統(tǒng)一命名服務(wù)(Name Service)
分布式應(yīng)用中,通常需要有一套完整的命名規(guī)則,既能夠產(chǎn)生唯一的名稱又便于人識(shí)別和記住监透,通常情況下用樹形的名稱結(jié)構(gòu)是一個(gè)理想的選擇桶错,樹形的名稱結(jié)構(gòu)是一個(gè)有層次的目錄結(jié)構(gòu),既對(duì)人友好又不會(huì)重復(fù)胀蛮。說(shuō)到這里你可能想到了 JNDI院刁,沒(méi)錯(cuò) Zookeeper 的 Name Service 與 JNDI 能夠完成的功能是差不多的,它們都是將有層次的目錄結(jié)構(gòu)關(guān)聯(lián)到一定資源上粪狼,但是 Zookeeper 的 Name Service 更加是廣泛意義上的關(guān)聯(lián)退腥,也許你并不需要將名稱關(guān)聯(lián)到特定資源上,你可能只需要一個(gè)不會(huì)重復(fù)名稱再榄,就像數(shù)據(jù)庫(kù)中產(chǎn)生一個(gè)唯一的數(shù)字主鍵一樣狡刘。
Name Service 已經(jīng)是 Zookeeper 內(nèi)置的功能,你只要調(diào)用 Zookeeper 的 API 就能實(shí)現(xiàn)困鸥。如調(diào)用 create 接口就可以很容易創(chuàng)建一個(gè)目錄節(jié)點(diǎn)嗅蔬。
配置管理(Configuration Management)
配置的管理在分布式應(yīng)用環(huán)境中很常見,例如同一個(gè)應(yīng)用系統(tǒng)需要多臺(tái) PC Server 運(yùn)行疾就,但是它們運(yùn)行的應(yīng)用系統(tǒng)的某些配置項(xiàng)是相同的澜术,如果要修改這些相同的配置項(xiàng),那么就必須同時(shí)修改每臺(tái)運(yùn)行這個(gè)應(yīng)用系統(tǒng)的 PC Server猬腰,這樣非常麻煩而且容易出錯(cuò)鸟废。
像這樣的配置信息完全可以交給 Zookeeper 來(lái)管理,將配置信息保存在 Zookeeper 的某個(gè)目錄節(jié)點(diǎn)中漆诽,然后將所有需要修改的應(yīng)用機(jī)器監(jiān)控配置信息的狀態(tài)侮攀,一旦配置信息發(fā)生變化,每臺(tái)應(yīng)用機(jī)器就會(huì)收到 Zookeeper 的通知厢拭,然后從 Zookeeper 獲取新的配置信息應(yīng)用到系統(tǒng)中。
圖 2. 配置管理結(jié)構(gòu)圖
集群管理(Group Membership)
Zookeeper 能夠很容易的實(shí)現(xiàn)集群管理的功能撇叁,如有多臺(tái) Server 組成一個(gè)服務(wù)集群供鸠,那么必須要一個(gè)“總管”知道當(dāng)前集群中每臺(tái)機(jī)器的服務(wù)狀態(tài),一旦有機(jī)器不能提供服務(wù)陨闹,集群中其它集群必須知道楞捂,從而做出調(diào)整重新分配服務(wù)策略。同樣當(dāng)增加集群的服務(wù)能力時(shí)趋厉,就會(huì)增加一臺(tái)或多臺(tái) Server寨闹,同樣也必須讓“總管”知道。
Zookeeper 不僅能夠幫你維護(hù)當(dāng)前的集群中機(jī)器的服務(wù)狀態(tài)君账,而且能夠幫你選出一個(gè)“總管”繁堡,讓這個(gè)總管來(lái)管理集群,這就是 Zookeeper 的另一個(gè)功能 Leader Election。
它們的實(shí)現(xiàn)方式都是在 Zookeeper 上創(chuàng)建一個(gè) EPHEMERAL 類型的目錄節(jié)點(diǎn)椭蹄,然后每個(gè) Server 在它們創(chuàng)建目錄節(jié)點(diǎn)的父目錄節(jié)點(diǎn)上調(diào)用getChildren(Stringpath, boolean?watch) 方法并設(shè)置 watch 為 true闻牡,由于是 EPHEMERAL 目錄節(jié)點(diǎn),當(dāng)創(chuàng)建它的 Server 死去绳矩,這個(gè)目錄節(jié)點(diǎn)也隨之被刪除罩润,所以 Children 將會(huì)變化,這時(shí)getChildren上的 Watch 將會(huì)被調(diào)用翼馆,所以其它 Server 就知道已經(jīng)有某臺(tái) Server 死去了割以。新增 Server 也是同樣的原理。
Zookeeper 如何實(shí)現(xiàn) Leader Election应媚,也就是選出一個(gè) Master Server严沥。和前面的一樣每臺(tái) Server 創(chuàng)建一個(gè) EPHEMERAL 目錄節(jié)點(diǎn),不同的是它還是一個(gè) SEQUENTIAL 目錄節(jié)點(diǎn)珍特,所以它是個(gè) EPHEMERAL_SEQUENTIAL 目錄節(jié)點(diǎn)祝峻。之所以它是 EPHEMERAL_SEQUENTIAL 目錄節(jié)點(diǎn),是因?yàn)槲覀兛梢越o每臺(tái) Server 編號(hào)扎筒,我們可以選擇當(dāng)前是最小編號(hào)的 Server 為 Master莱找,假如這個(gè)最小編號(hào)的 Server 死去,由于是 EPHEMERAL 節(jié)點(diǎn)嗜桌,死去的 Server 對(duì)應(yīng)的節(jié)點(diǎn)也被刪除奥溺,所以當(dāng)前的節(jié)點(diǎn)列表中又出現(xiàn)一個(gè)最小編號(hào)的節(jié)點(diǎn),我們就選擇這個(gè)節(jié)點(diǎn)為當(dāng)前 Master骨宠。這樣就實(shí)現(xiàn)了動(dòng)態(tài)選擇 Master浮定,避免了傳統(tǒng)意義上單 Master 容易出現(xiàn)單點(diǎn)故障的問(wèn)題。
圖 3. 集群管理結(jié)構(gòu)圖
共享鎖(Locks)
共享鎖在同一個(gè)進(jìn)程中很容易實(shí)現(xiàn)层亿,但是在跨進(jìn)程或者在不同 Server 之間就不好實(shí)現(xiàn)了桦卒。Zookeeper 卻很容易實(shí)現(xiàn)這個(gè)功能,實(shí)現(xiàn)方式也是需要獲得鎖的 Server 創(chuàng)建一個(gè) EPHEMERAL_SEQUENTIAL 目錄節(jié)點(diǎn)匿又,然后調(diào)用getChildren方法獲取當(dāng)前的目錄節(jié)點(diǎn)列表中最小的目錄節(jié)點(diǎn)是不是就是自己創(chuàng)建的目錄節(jié)點(diǎn)方灾,如果正是自己創(chuàng)建的,那么它就獲得了這個(gè)鎖碌更,如果不是那么它就調(diào)用exists(Stringpath, boolean?watch) 方法并監(jiān)控 Zookeeper 上目錄節(jié)點(diǎn)列表的變化裕偿,一直到自己創(chuàng)建的節(jié)點(diǎn)是列表中最小編號(hào)的目錄節(jié)點(diǎn),從而獲得鎖痛单,釋放鎖很簡(jiǎn)單嘿棘,只要?jiǎng)h除前面它自己所創(chuàng)建的目錄節(jié)點(diǎn)就行了。
圖 4. Zookeeper 實(shí)現(xiàn) Locks 的流程圖
隊(duì)列管理
Zookeeper 可以處理兩種類型的隊(duì)列:
當(dāng)一個(gè)隊(duì)列的成員都聚齊時(shí)旭绒,這個(gè)隊(duì)列才可用鸟妙,否則一直等待所有成員到達(dá)焦人,這種是同步隊(duì)列。
隊(duì)列按照 FIFO 方式進(jìn)行入隊(duì)和出隊(duì)操作圆仔,例如實(shí)現(xiàn)生產(chǎn)者和消費(fèi)者模型垃瞧。
同步隊(duì)列用 Zookeeper 實(shí)現(xiàn)的實(shí)現(xiàn)思路如下:
創(chuàng)建一個(gè)父目錄 /synchronizing,每個(gè)成員都監(jiān)控標(biāo)志(Set Watch)位目錄 /synchronizing/start 是否存在坪郭,然后每個(gè)成員都加入這個(gè)隊(duì)列个从,加入隊(duì)列的方式就是創(chuàng)建 /synchronizing/member_i 的臨時(shí)目錄節(jié)點(diǎn),然后每個(gè)成員獲取 / synchronizing 目錄的所有目錄節(jié)點(diǎn)歪沃,也就是 member_i嗦锐。判斷 i 的值是否已經(jīng)是成員的個(gè)數(shù),如果小于成員個(gè)數(shù)等待 /synchronizing/start 的出現(xiàn)沪曙,如果已經(jīng)相等就創(chuàng)建 /synchronizing/start奕污。
用下面的流程圖更容易理解:
圖 5. 同步隊(duì)列流程圖
FIFO 隊(duì)列用 Zookeeper 實(shí)現(xiàn)思路如下:
實(shí)現(xiàn)的思路也非常簡(jiǎn)單,就是在特定的目錄下創(chuàng)建 SEQUENTIAL 類型的子目錄 /queue_i液走,這樣就能保證所有成員加入隊(duì)列時(shí)都是有編號(hào)的碳默,出隊(duì)列時(shí)通過(guò) getChildren( ) 方法可以返回當(dāng)前所有的隊(duì)列中的元素,然后消費(fèi)其中最小的一個(gè)缘眶,這樣就能保證 FIFO嘱根。