zk集群數(shù)據(jù)遷移和恢復(fù)
一轧葛、zk數(shù)據(jù)遷移,有如下兩種方案:
1扮惦、利用zk集群超過半數(shù)仍然可用的特性臀蛛,比如集群中有5個節(jié)點,可以將其中1~2個節(jié)點割裂出去崖蜜,再添加1個新的節(jié)點浊仆,組成新的集群,以此實現(xiàn)數(shù)據(jù)遷移豫领;
2抡柿、直接拷貝集群的元數(shù)據(jù)文件到新集群;
但第1種方案并不是最佳選擇氏堤,例如zk集群連接數(shù)負(fù)載高沙绝,如果此時再減少節(jié)點數(shù)搏明,則會導(dǎo)致集群負(fù)載變得更高,甚至集群崩潰闪檬。故采用第2種方案星著,通過拷貝元數(shù)據(jù)的方式來實現(xiàn)集群數(shù)據(jù)遷移和恢復(fù)。
二粗悯、zk數(shù)據(jù)遷移和恢復(fù)的實現(xiàn)思路
1虚循、搭建好新的zk集群,并且啟動集群(此時集群還沒有數(shù)據(jù))样傍;
2横缔、停止新集群所有節(jié)點的zk進程;
3衫哥、刪除新集群所有節(jié)點數(shù)據(jù)目錄下的文件茎刚,包括:事務(wù)日志、快照撤逢、epoch文件
4膛锭、將老集群leader節(jié)點的事務(wù)日志、快照蚊荣、epoch文件拷貝到新集群所有節(jié)點對應(yīng)的數(shù)據(jù)目錄下初狰;
5、重新啟動新集群互例;
三奢入、注意事項:
如果新集群的兩個epoch文件不刪掉的話,會造成新集群無法啟動媳叨;原因是:如果只是拷貝了老集群的快照腥光、事務(wù)日志到新集群,新集群的節(jié)點在啟動時會識別epoch文件中記錄的當(dāng)前epoch值糊秆,然后將這個epoch值和從老集群拷貝過來的元數(shù)據(jù)中的事務(wù)ID(zxid)進行比較柴我,發(fā)現(xiàn)并不匹配,就會造成新集群無法正常啟動扩然。故需要將新集群中各個節(jié)點的epoch文件刪除艘儒,將老集群的epoch文件、快照文件夫偶、事務(wù)日志文件一并拷貝到新集群的各個節(jié)點界睁。
四、zk數(shù)據(jù)遷移和恢復(fù)的具體操作步驟:
1兵拢、搭建新集群:
1)翻斟、rpm?-ivh?jdk-8u20-linux-x64.rpm??
2)、cd??/data/??&&??tar??-zxvf??zk_server.tgz??###解壓到/data或者/data1
3)说铃、cd??/data/??&&??mv??zk_server??zk.1?????###myid為1的節(jié)點访惜,家目錄為/data/zk.1嘹履、myid為2的節(jié)點,家目錄為/data/zk.2
4)债热、解壓之后砾嫉,可以看到3個目錄:
cd??/data/zk.1??&&??ls?-l
zk_data??????###保存zk快照數(shù)據(jù)的主目錄
zk_log???????###保存zk事務(wù)日志的主目錄
zookeeper????###程序路徑,包含配置文件
5)窒篱、cd??/data/zk.1/zk_data??&&??echo?1?>?myid??###配置節(jié)點myid焕刮,myid為1的節(jié)點配置成1,myid為2的節(jié)點配置成2墙杯,myid為3的節(jié)點配置3
6)配并、cd??/data/zk.1/zookeeper/conf??&&??cp?-ar??zoo.cfg.template??zoo.cfg
7)、vim??zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
clientPort=2181
autopurge.snapRetainCount=500
autopurge.purgeInterval?=?48?
dataDir=/data/zk.1/zk_data????###myid為2則配置為/data/zk.2/zk_data
dataLogDir=/data/zk.1/zk_log??###myid為2則配置為/data/zk.2/zk_log
server.1=節(jié)點1的IP:8880:7770??????????#節(jié)點1的配置
server.2=節(jié)點2的IP:8880:7770? ? ? ? ? #節(jié)點2的配置
server.3=節(jié)點3的IP:8880:7770? ? ? ? ? ?#節(jié)點3的配置
8)高镐、其余2個節(jié)點的安裝部署方法也是一樣
9)溉旋、依次啟動3個節(jié)點,并檢查狀態(tài)
啟動:
cd??/data/zk.1/zookeeper/bin/??&&???nohup?sh??zkServer.sh?start??>?zookeeper.out?&
檢查節(jié)點狀態(tài):
cd?/data/zk.1/zookeeper/bin/?&&?./zkServer.sh??status??
連接本地節(jié)點嫉髓,查看數(shù)據(jù):
cd?/data/zk.1/zookeeper/bin/?&&?./zkCli.sh?-server?127.0.0.1:2181
2低滩、停止新集群所有節(jié)點的zk進程:
cd?/data/zk.1/zookeeper/bin/?&&?sh?zkServer.sh?stop
cd?/data/zk.2/zookeeper/bin/?&&?sh?zkServer.sh?stop
cd?/data/zk.3/zookeeper/bin/?&&?sh?zkServer.sh?stop
3、刪除新集群所有節(jié)點數(shù)據(jù)目錄下的文件岩喷,包括:事務(wù)日志、快照监憎、epoch文件(以節(jié)點1為例):
cd??/data/zk.1/zk_data/version-2??&&??rm??-f??snapshot.*??&&??rm??-f??acceptedEpoch??&&?rm??-f??currentEpoch
cd??/data/zk.1/zk_log/version-2??&&??rm??-f??log.*
4纱意、將老集群leader節(jié)點的事務(wù)日志、快照鲸阔、epoch文件拷貝到新集群所有節(jié)點對應(yīng)的數(shù)據(jù)目錄下(以leader節(jié)點的數(shù)據(jù)為準(zhǔn)):
1)偷霉、備份老集群leader節(jié)點的數(shù)據(jù)目錄下的文件(拷貝到本地的新建的zk_meta_dir目錄)
最新的log事務(wù)日志文件? ###不是所有的log文件,而是最新的log文件
最新的snapshot文件???###不是所有的snapshot文件褐筛,而是最新的snapshot文件
acceptedEpoch文件
currentEpoch文件
2)类少、將leader節(jié)點zk_meta_dir目錄的log文件、snapshot文件渔扎、Epoch文件分發(fā)到新集群每個節(jié)點對應(yīng)的目錄硫狞,例如節(jié)點1的/data/zk.1/zk_data/version-2、/data/zk.1/zk_log/version-2
5晃痴、重新啟動新集群:
以節(jié)點1為例:
cd??/data/zk.1/zookeeper/bin/??&&???nohup?sh??zkServer.sh?start??>?zookeeper.out?&