1衷畦、ZooKeeper 是啥,能用來(lái)做啥
是一個(gè)分布式協(xié)調(diào)系統(tǒng)知牌,為分布式服務(wù)提供一致性祈争。
可以用來(lái)做 注冊(cè)中心,分布式鎖角寸,Master選舉菩混,數(shù)據(jù)的發(fā)布與訂閱
實(shí)質(zhì)是實(shí)現(xiàn)了一個(gè)文件系統(tǒng)(多層級(jí)的節(jié)點(diǎn)znode命名空間,每個(gè)節(jié)點(diǎn)都可以存放數(shù)據(jù))扁藕,特點(diǎn)watch機(jī)制
2沮峡、ZooKeeper 如何保證主從數(shù)據(jù)一致,如何實(shí)現(xiàn)數(shù)據(jù)的同步
Zab(ZooKeeper Automatic Broadcast) ZooKeeper原子消息廣播協(xié)議
恢復(fù)模式:
當(dāng)服務(wù)剛啟動(dòng)或者leader宕機(jī)或失聯(lián)后亿柑,就進(jìn)入恢復(fù)模式邢疙。崩潰恢復(fù)模式會(huì)開(kāi)啟下一輪的選舉,選舉產(chǎn)生的leader與過(guò)半的follower進(jìn)行同步完成后橄杨,退出恢復(fù)模式秘症。
廣播模式:
收到寫(xiě)消息后,會(huì)將請(qǐng)求轉(zhuǎn)發(fā)到leader節(jié)點(diǎn)式矫,
leader節(jié)點(diǎn)會(huì)定義一個(gè)全局遞增的唯一事務(wù)id zxid,包裝成更新役耕,leader會(huì)將更新發(fā)送給所有follower采转,
follower收到更新會(huì)將zxid與本地最大的zxid的相對(duì)比,如果更大瞬痘,則將更新提案持久化到事務(wù)日志故慈,回復(fù)leader ack消息
leader接受到超過(guò)半數(shù)的follower回復(fù)后,會(huì)向所有follower提交commit框全,同時(shí)將更新提交到Observer
leader自身commit更新 -- 對(duì)外可讀了
follower和observer收到commit后察绷,會(huì)將數(shù)據(jù)更新到內(nèi)存數(shù)據(jù)庫(kù)中,可讀津辩〔鸷常回復(fù)leader ack
3、ZooKeeper選舉
選舉消息的內(nèi)容:
ServiceId 服務(wù)器id喘沿,節(jié)點(diǎn)id
Zxid 事務(wù)id闸度,服務(wù)器中存放的最大數(shù)據(jù)id,越大越新
Epoch 邏輯時(shí)鐘 - 投票輪數(shù)蚜印,遞增的莺禁。根據(jù)這個(gè)知道是哪一輪的投票
Server選舉狀態(tài) looking選舉中 leading following observing不參與投票
- 啟動(dòng),先判斷集群是否已經(jīng)有l(wèi)eader了窄赋,如果有哟冬,就直接作為follower啟動(dòng)
- 如果處于選舉狀態(tài)楼熄,每臺(tái)機(jī)器都在第一輪會(huì)投票給自己,并且獲取其他機(jī)器的投票信息
- 收集到投票信息后浩峡,每臺(tái)機(jī)器根據(jù)信息可岂,先判斷epoch,輪次大的勝出红符,然后選舉zxid最大的青柄,如果zxid一樣大,選舉serviceid最大的预侯,并發(fā)起第二輪投票
- 如果超過(guò)半數(shù)的選票決出leader致开,選舉結(jié)束,各個(gè)機(jī)器更改自己相應(yīng)的狀態(tài) 否則重復(fù)第3步
4萎馅、znode
- persistent 持久化節(jié)點(diǎn) 除非手動(dòng)刪除双戳,否則一直存在∶臃迹可創(chuàng)建子節(jié)點(diǎn)
- persistent seq 持久化順序節(jié)點(diǎn) 比上多了個(gè)節(jié)點(diǎn)名后綴為自增數(shù)字 10位
- ephemeral 臨時(shí)節(jié)點(diǎn) 會(huì)話關(guān)閉飒货,自動(dòng)刪除。不能創(chuàng)建子節(jié)點(diǎn)
- ephemeral 臨時(shí)順序節(jié)點(diǎn) 比上多了個(gè)節(jié)點(diǎn)名后綴為自增數(shù)字 10位
create /module1 module1
創(chuàng)建了一個(gè)持久節(jié)點(diǎn)/module1峭竣,且其數(shù)據(jù)為”module1”
create -e /module1/app1 app1
創(chuàng)建了一個(gè)臨時(shí)節(jié)點(diǎn) /module1/app1塘辅,數(shù)據(jù)為”app1”
create -s /module1/app app
輸出Created /module1/app0000000001
get /module1/app2
app2
cZxid = 0x20000000e
ctime = Thu Jun 30 20:41:55 HKT 2016
mZxid = 0x20000000e
mtime = Thu Jun 30 20:41:55 HKT 2016
pZxid = 0x20000000e
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 4
numChildren = 0
節(jié)點(diǎn)狀態(tài)信息 :
ctime 創(chuàng)建時(shí)間 mtime 最新修改時(shí)間
cZxid 創(chuàng)建時(shí)的事務(wù)id mZxid 最新修改的事務(wù)id pZxid 子節(jié)點(diǎn)變更最新事務(wù)id
Zxid可用于客戶(hù)端的重連,選擇Zxid相同節(jié)點(diǎn)
cversion 當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)變化是遞增1
dataVersion 當(dāng)前節(jié)點(diǎn)的內(nèi)容版本號(hào)皆撩,每次set都會(huì)遞增扣墩,不管數(shù)據(jù)是否發(fā)生變化
aclVersion acl變更版本號(hào)
版本號(hào)是避免并行更新產(chǎn)生的競(jìng)爭(zhēng)
ephemeralOwner 創(chuàng)建該臨時(shí)節(jié)點(diǎn)的會(huì)話的sessionId
dataLength 數(shù)據(jù)長(zhǎng)度
numChildren 子節(jié)點(diǎn)個(gè)數(shù)
5、ACL (Access Control List)訪問(wèn)控制列表
身份認(rèn)證方式:
- world 默認(rèn)扛吞,所有都可以訪問(wèn) world:anyone:[permissions]
- digest 密碼訪問(wèn) digest:username:Base64(Sha1(password)):[permissions]
- ip 對(duì)指定ip進(jìn)行限制 ip:109.108.1.1:[permissions]
- auth 認(rèn)證登錄 auth:usernamepassword:[permissions]
權(quán)限permissions: - CREATE 允許當(dāng)前節(jié)點(diǎn)下創(chuàng)建子節(jié)點(diǎn)
- DELETE 允許當(dāng)前節(jié)點(diǎn)下刪除子節(jié)點(diǎn)
- WRITE 允許當(dāng)前節(jié)點(diǎn)下更新操作
- READ 允許讀取當(dāng)前節(jié)點(diǎn)內(nèi)容及子節(jié)點(diǎn)列表
- ADMIN 允許對(duì)當(dāng)前節(jié)點(diǎn)進(jìn)行ACL更改操作
6呻惕、Watcher機(jī)制
ZK客戶(hù)端可以向ZK服務(wù)端的某個(gè)Znode節(jié)點(diǎn)注冊(cè)Watcher監(jiān)聽(tīng),當(dāng)指定事件發(fā)生后滥比,服務(wù)端會(huì)向客戶(hù)端發(fā)送通知亚脆。
- 一次性 一旦觸發(fā)即被移除,減輕服務(wù)端和客戶(hù)端壓力
- 客戶(hù)端串行執(zhí)行 客戶(hù)端的watcher回調(diào)過(guò)程是一個(gè)串行過(guò)程盲泛,所以回調(diào)盡量快點(diǎn)
- 輕量 傳輸?shù)氖录话?jié)點(diǎn)路徑濒持,事件類(lèi)型,通知狀態(tài)查乒,不包含數(shù)據(jù)
- 時(shí)效性 在session過(guò)期時(shí)間內(nèi)弥喉,重連任然可以收到watcher事件
注冊(cè):
getData
getChildren
exist
都可以用來(lái)向服務(wù)器注冊(cè)watcher
觸發(fā):
create
delete
setData
- client 發(fā)送請(qǐng)求,將watch的狀態(tài)保存到client中玛迄,即存在于等待回復(fù)隊(duì)列中
- 標(biāo)記watch的request請(qǐng)求到達(dá)服務(wù)端后由境,服務(wù)端會(huì)將這個(gè)watcher(包含client連接屬性)以字典形式保存在內(nèi)存中
- 當(dāng)watch的節(jié)點(diǎn)發(fā)生變化時(shí),去字典找出注冊(cè)的watch,拿出連接
- 根據(jù)連接發(fā)送通知
- client從等待回復(fù)隊(duì)列中取出元素虏杰,watch的回調(diào)被觸發(fā)
7讥蟆、分布式鎖的實(shí)現(xiàn)
找一個(gè)持久化節(jié)點(diǎn)當(dāng)做一個(gè)鎖節(jié)點(diǎn)
在鎖節(jié)點(diǎn)下創(chuàng)建臨時(shí)順序節(jié)點(diǎn)
獲取鎖節(jié)點(diǎn)下臨時(shí)節(jié)點(diǎn)列表,判斷是否是最小的纺阔,如果是最小的瘸彤,獲取鎖成功
如果不是最小的,則監(jiān)聽(tīng)比當(dāng)前創(chuàng)建的臨時(shí)節(jié)點(diǎn)次小的節(jié)點(diǎn)的刪除事件笛钝,阻塞等待watch通知
收到前一節(jié)點(diǎn)刪除通知质况,則再次獲取臨時(shí)節(jié)點(diǎn)列表,判斷自己是否是最小的節(jié)點(diǎn)玻靡,如果是结榄,則獲取鎖成功,否則重復(fù)上述步驟
8囤捻、注冊(cè)中心與Eureka區(qū)別
ZooKeeper :CP 使用主從模型臼朗,保證數(shù)據(jù)的一致性 leader宕機(jī)是停止對(duì)外服務(wù),重新選主后再提供服務(wù)
Eureka :AP 使用無(wú)主模型蝎土,所有節(jié)點(diǎn)平等 客戶(hù)端訪問(wèn)所有節(jié)點(diǎn)都可以提供實(shí)時(shí)服務(wù)響應(yīng)视哑。如果宕機(jī),請(qǐng)求會(huì)轉(zhuǎn)向其他節(jié)點(diǎn)誊涯。集群中不同節(jié)點(diǎn)數(shù)據(jù)可能不一致挡毅,需要通過(guò)網(wǎng)絡(luò)通訊同步其他節(jié)點(diǎn)信息,實(shí)現(xiàn)數(shù)據(jù)一致暴构。影響最終一致性的因素有網(wǎng)絡(luò)延遲慷嗜,重試機(jī)制,同步頻率等
ZooKeeper支持?jǐn)?shù)據(jù)存儲(chǔ)丹壕,Eureka不支持
ZooKeeper支持watcher機(jī)制訂閱變更 Eureka通過(guò)輪詢(xún)