zookeeper
1.1.zookeeper概述
zookeeper是一個分布式協(xié)調(diào)服務(wù)的開源框架焕济。主要是用來解決分布式集群中應(yīng)用系統(tǒng)的一致性問題芥被,例如怎么避免同時操作同一數(shù)據(jù)造成臟讀問題族展。
zookeeper本質(zhì)上是一個分布式的小文件存儲系統(tǒng)届腐。提供基于類似文件系統(tǒng)的目錄樹方式的數(shù)據(jù)存儲鸵隧,并且可以對樹中的節(jié)點進行有效管理粉臊,從而用來維護和監(jiān)控你存儲的數(shù)據(jù)的狀態(tài)變化鹃两。通過監(jiān)控這些數(shù)據(jù)狀態(tài)的變化遗座,從而可以達到基于數(shù)據(jù)的集群管理。例如:統(tǒng)一命名服務(wù)俊扳、分布式配置管理途蒋、分布式消息隊列、分布式鎖馋记、分布式協(xié)調(diào)等功能号坡。
1.2.zookeeper的文件系統(tǒng)
zookeeper維護一個類似文件系統(tǒng)的數(shù)據(jù)結(jié)構(gòu):
1.3.zookeeper特性
- 全局數(shù)據(jù)一致:每個server保存一份相同的數(shù)據(jù)副本,client無論連接到哪個server抗果,展示的數(shù)據(jù)都是一致的筋帖,這是最重要的特性;
- 可靠性:如果消息被其中一臺服務(wù)器接收冤馏,那么將被所有服務(wù)器接收(刪除某一臺的1.txt文件日麸,那么所有服務(wù)器上的副本都會被刪除);
- 順序性:包括全局有序和偏序兩種。全局有序指的是如果在一臺服務(wù)器上消息a在消息b前發(fā)布代箭,那么所有server上的消息a都將在消息b之前發(fā)布墩划。偏序則指的是如果一個消息b在消息a后被同一個發(fā)送者發(fā)布,a必將排在b前面(消息可以理解為刪除操作)嗡综;
- 數(shù)據(jù)更新原子性:一次數(shù)據(jù)更新要么成功(半數(shù)以上算成功)乙帮,要么失敗,不存在中間狀態(tài)极景;
- 實時性:zookeeper保證了客戶端在同一時間間隔范圍內(nèi)獲得服務(wù)器的更新信息察净,或者服務(wù)器失效的信息;
1.4.zookeeper集群角色
Leader:
- zookeeper集群工作的核心盼樟;
- 事務(wù)請求(寫操作)的唯一調(diào)度和處理者氢卡,保證集群事務(wù)處理的順序性;
- 對于create晨缴、setData译秦、delete等有寫操作的請求,則需要統(tǒng)一轉(zhuǎn)發(fā)給Leader處理击碗,Leader需要決定編號筑悴、執(zhí)行操作,這個過程稱為一個事務(wù)稍途;
Follower:
- 處理客戶端非事務(wù)(寫操作)的請求阁吝,轉(zhuǎn)發(fā)事務(wù)請求給Leader;
- 參與集群Leader選舉投票晰房;
此外求摇,針對訪問量大的zookeeper集群,還可以新添加觀察者角色殊者。
Observer:
- 觀察者角色与境,觀察zookeeper集群的最新狀態(tài)變化并將這些狀態(tài)同步過來,其對于非事務(wù)請求可以進行獨立處理(和Follower功能一樣)猖吴,對于事務(wù)請求摔刁,則會轉(zhuǎn)發(fā)給Leader服務(wù)器來處理;
- 不會參與任何形式的投票海蔽,只提供非事務(wù)服務(wù)共屈,通常用于在不影響集群事務(wù)處理能力的前提下提升集群的非事務(wù)處理能力。
zookeeper集群搭建
zookeeper集群搭建的是zookeeper分布式模式安裝党窜。通常由2n+1臺server組成拗引。這是因為為了保證Leader選舉(基于Paxos算法)能夠得到多數(shù)的支持,所以zookeeper集群數(shù)量一般為奇數(shù)幌衣。
zookeeper運行需要Java環(huán)境矾削,所以需要提前安裝JDK壤玫。對于安裝Leader+Follower的集群,大致過程如下:
- 配置主機名稱到IP地址的映射關(guān)系哼凯;
- 修改zookeeper配置文件欲间;
- 遠程復(fù)制分發(fā)安裝文件;
- 設(shè)置myid断部;
- 啟動zookeeper集群猎贴;
如果想要使用Observer模式,可在對應(yīng)節(jié)點的配置文件添加如下配置:
peerType=observer
其次蝴光,必須在配置文件指定哪些節(jié)點被指定為Observer她渴,如:
server.1:localhost:2181:3181:observer
安裝過程
wget http://mirror.bit.edu.cn/apache/zookeeper/stable/apache-zookeeper-3.4.5.tar.gz
tar -zxvf zookeeper-3.4.5.tar.gz
mv zookeeper-3.4.5 zookeeper
## 修改配置文件
cd zookeeper/conf
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg 添加內(nèi)容
dataDir=/root/apps/zookeeper/zkdata
server.1=mini1:2888:3888 ## (心跳端口、選舉端口)
server.2=mini2:2888:3888
server.3=mini3:2888:3888
## 創(chuàng)建文件夾:
cd /home/hadoop/zookeeper/
mkdir zkdata
## 在data文件夾下新建myid文件蔑祟,myid的文件內(nèi)容為:
cd zkdata
echo 1 > myid
## 分發(fā)安裝包到其他機器
scp -r /root/apps root@mini2:/root/
scp -r /root/apps root@mini3:/root/
## 修改其他機器的配置文件
## 修改myid文件
到mini2上:修改myid為:2
到mini3上:修改myid為:3
##啟動(每臺機器)
zkServer.sh start
或者編寫一個腳本來批量啟動所有機器:
for host in "mini1 mini2 mini3"
do
ssh $host "source/etc/profile;/root/apps/zookeeper/bin/zkServer.sh start"
done
##查看集群狀態(tài)
jps(查看進程)
zkServer.sh status(查看集群狀態(tài)惹骂,主從信息)
如果啟動不成功,可以觀察zookeeper.out日志做瞪,查看錯誤信息進行排查
配置文件參數(shù)說明:
-
tickTime
:這個時間作為zookeeper服務(wù)器之間或客戶端與服務(wù)器之間維持心跳的時間間隔,也就是說每個tickTime
時間就會發(fā)送一個心跳右冻; -
initLimit
:這個配置項是用來配置zookeeper接收客戶端(這里所說的客戶端不是用戶連接zookeeper服務(wù)器集群中連接到Leader的Follower服務(wù)器)初始化連接時最長能忍受多少個心跳時間間隔數(shù)装蓬。當(dāng)已經(jīng)超過10個心跳的時間(也就是tickTime)長度后zookeeper服務(wù)器還沒有收到客戶端的返回信息,那么表明這個客戶端連接失敗纱扭‰怪悖總的時間長度就是10*2000=20s; -
syncLimit
:這個配置項標(biāo)識Leader和Follower之間發(fā)送消息乳蛾,請求和應(yīng)答時間長度暗赶,最長不能超過多少個tickTime的時間長度,總的時間長度就是5*2000=10秒; -
dataDir
:就是zookeeper保存數(shù)據(jù)的目錄肃叶,默認情況下zookeeper將寫數(shù)據(jù)的日志文件也保存在這個目錄里蹂随; -
clientPort
:這個端口就是客戶端連接zookeeper服務(wù)器的端口,zookeeper會監(jiān)聽客戶端的訪問請求因惭; -
server.A=B:C:D
:A是一個數(shù)字岳锁,表示這是第幾臺服務(wù)器,B是這個服務(wù)器的IP地址或主機名蹦魔,C是用來集群成員的信息交換激率,表示這個服務(wù)器在集群中的Leader服務(wù)器交換信息的端口,D代表在Leader掛掉時勿决,專門用來進行選舉Leader所用的端口乒躺;
3.zookeeper數(shù)據(jù)模型
zookeeper的數(shù)據(jù)模型,在結(jié)構(gòu)上和標(biāo)準(zhǔn)文件系統(tǒng)的非常相似低缩。擁有一個層次命名空間嘉冒,都是采用樹形結(jié)構(gòu),zookeeper樹中的每個節(jié)點被稱為Znode。和文件系統(tǒng)的目錄樹一樣健爬,zookeeper樹中的每個節(jié)點都可以擁有子節(jié)點控乾,但也有不同之處:
- Znode兼具文件和目錄兩種特點。既像文件一樣維護者數(shù)據(jù)娜遵、元信息蜕衡、ACL、時間戳等數(shù)據(jù)結(jié)構(gòu)设拟,并可以具有子Znode慨仿。用戶對Znode具有增刪改查等操作(權(quán)限允許的情況下);
- Znode具有原子性操作纳胧。讀操作將獲取與節(jié)點相關(guān)的所有數(shù)據(jù)镰吆,寫操作也將替換掉節(jié)點的所有數(shù)據(jù),另外每一個節(jié)點都擁有自己的ACL(訪問控制權(quán)限列表)跑慕,這個列表規(guī)定了用戶的權(quán)限万皿,即限定了特定用戶對目標(biāo)節(jié)點可以執(zhí)行的操作;
- Znode節(jié)點存儲數(shù)據(jù)大小有限制核行。zookeeper雖然可以關(guān)聯(lián)一些數(shù)據(jù)牢硅,但并沒有被設(shè)計為常規(guī)的數(shù)據(jù)庫或大數(shù)據(jù)存儲,相反的是芝雪,它用來管理調(diào)度數(shù)據(jù)减余,比如分布式應(yīng)用中的配置文件信息、狀態(tài)信息惩系、匯集信息等等位岔,這些數(shù)據(jù)的共同特征就是他們都是很小的數(shù)據(jù),通常是以kb為大小單位堡牡。zookeeper的服務(wù)器和客戶端都設(shè)計為嚴(yán)格檢查并限制每個Znode的數(shù)據(jù)大小最大為1M抒抬,但在常規(guī)使用中應(yīng)該遠小于此值;
-
Znode通過路徑引用悴侵。如同unix的文件路徑瞧剖,路徑必須是絕對的,因此他們必須是由斜杠開頭可免,除此之外抓于,他們必須是唯一的,也就是說每一個路徑只有一個表示浇借,并且有一些限制捉撮,字符串
/zookeeper
用以保存管理信息,比如關(guān)鍵配額信息妇垢;
3.1.數(shù)據(jù)結(jié)構(gòu)圖
未完待續(xù)......