[原理]Namenode HA原理(兩個NN~主&備)

Namenode HA原理詳解(腦裂) - 遠(yuǎn)方的專欄 - 博客頻道 - CSDN.NET
http://blog.csdn.net/u014774781/article/details/51940301

Namenode HA 如何實(shí)現(xiàn)斜脂,關(guān)鍵技術(shù)難題是什么?

  1. 如何保持主和備NameNode的狀態(tài)同步触机,并讓Standby在Active掛掉后迅速提供服務(wù)帚戳,namenode啟動比較耗時,包括加載fsimage和editlog(獲取file to block信息)儡首,處理所有datanode第一次blockreport(獲取block to datanode信息)片任,保持NN的狀態(tài)同步,需要這兩部分信息同步椒舵。
  2. 腦裂(split-brain),指在一個高可用(HA)系統(tǒng)中约谈,當(dāng)聯(lián)系著的兩個節(jié)點(diǎn)斷開聯(lián)系時笔宿,本來為一個整體的系統(tǒng),分裂為兩個獨(dú)立節(jié)點(diǎn)棱诱,這時兩個節(jié)點(diǎn)開始爭搶共享資源泼橘,結(jié)果會導(dǎo)致系統(tǒng)混亂,數(shù)據(jù)損壞迈勋。
  3. NameNode切換對外透明炬灭,主Namenode切換到另外一臺機(jī)器時,不應(yīng)該導(dǎo)致正在連接的客戶端失敗靡菇,主要包括Client重归,Datanode與NameNode的鏈接。
Paste_Image.png

社區(qū)的NN HA包括兩個NN厦凤,主(active)與備(standby)鼻吮,ZKFC,ZK较鼓,share editlog椎木。流程:集群啟動后一個NN處于active狀態(tài),并提供服務(wù)博烂,處理客戶端和datanode的請求香椎,并把editlog寫到本地和share editlog(可以是NFS,QJM等)中禽篱。另外一個NN處于Standby狀態(tài)畜伐,它啟動的時候加載fsimage,然后周期性的從share editlog中獲取editlog躺率,保持與active的狀態(tài)同步烤礁。為了實(shí)現(xiàn)standby在sctive掛掉后迅速提供服務(wù)讼积,需要DN同時向兩個NN匯報,使得Stadnby保存block to datanode信息脚仔,因?yàn)镹N啟動中最費(fèi)時的工作是處理所有datanode的blockreport勤众。為了實(shí)現(xiàn)熱備,增加FailoverController和ZK鲤脏,F(xiàn)ailoverController與ZK通信们颜,通過ZK選主,F(xiàn)ailoverController通過RPC讓NN轉(zhuǎn)換為active或standby猎醇。

QJM的設(shè)計(jì)
Namenode記錄了HDFS的目錄文件等元數(shù)據(jù)窥突,客戶端每次對文件的增刪改等操作,Namenode都會記錄一條日志硫嘶,叫做editlog阻问,而元數(shù)據(jù)存儲在fsimage中。為了保持Stadnby與active的狀態(tài)一致沦疾,standby需要盡量實(shí)時獲取每條editlog日志称近,并應(yīng)用到FsImage中。這時需要一個共享存儲哮塞,存放editlog刨秆,standby能實(shí)時獲取日志。這有兩個關(guān)鍵點(diǎn)需要保證忆畅, 共享存儲是高可用的衡未,需要防止兩個NameNode同時向共享存儲寫數(shù)據(jù)導(dǎo)致數(shù)據(jù)損壞。
是什么家凯,Qurom Journal Manager缓醋,基于Paxos(基于消息傳遞的一致性算法)。這個算法比較難懂绊诲,簡單的說改衩,Paxos算法是解決分布式環(huán)境中如何就某個值達(dá)成一致,(一個典型的場景是驯镊,在一個分布式數(shù)據(jù)庫系統(tǒng)中葫督,如果各節(jié)點(diǎn)的初始狀態(tài)一致,每個節(jié)點(diǎn)都執(zhí)行相同的操作序列板惑,那么他們最后能得到一個一致的狀態(tài)橄镜。為保證每個節(jié)點(diǎn)執(zhí)行相同的命令序列,需要在每一條指令上執(zhí)行一個"一致性算法"以保證每個節(jié)點(diǎn)看到的指令一致)

Paste_Image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末冯乘,一起剝皮案震驚了整個濱河市洽胶,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖姊氓,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件丐怯,死亡現(xiàn)場離奇詭異,居然都是意外死亡翔横,警方通過查閱死者的電腦和手機(jī)读跷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來禾唁,“玉大人效览,你說我怎么就攤上這事〉炊蹋” “怎么了丐枉?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長掘托。 經(jīng)常有香客問我瘦锹,道長,這世上最難降的妖魔是什么闪盔? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任弯院,我火速辦了婚禮,結(jié)果婚禮上锭沟,老公的妹妹穿的比我還像新娘抽兆。我一直安慰自己识补,他們只是感情好族淮,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著凭涂,像睡著了一般祝辣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上切油,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天蝙斜,我揣著相機(jī)與錄音,去河邊找鬼澎胡。 笑死孕荠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的攻谁。 我是一名探鬼主播稚伍,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼戚宦!你這毒婦竟也來了个曙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤受楼,失蹤者是張志新(化名)和其女友劉穎垦搬,沒想到半個月后呼寸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡猴贰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年对雪,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片糟趾。...
    茶點(diǎn)故事閱讀 39,769評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡慌植,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出义郑,到底是詐尸還是另有隱情蝶柿,我是刑警寧澤,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布非驮,位于F島的核電站交汤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏劫笙。R本人自食惡果不足惜芙扎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望填大。 院中可真熱鬧戒洼,春花似錦、人聲如沸允华。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽靴寂。三九已至磷蜀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間百炬,已是汗流浹背褐隆。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留剖踊,地道東北人庶弃。 一個月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像德澈,于是被迫代替她去往敵國和親歇攻。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容

  • (一)分布式文件系統(tǒng)概述 數(shù)據(jù)量越來越多圃验,在一個操作系統(tǒng)管轄的范圍存不下了掉伏,那么就分配到更多的操作系統(tǒng)管理的磁盤中...
    時待吾閱讀 1,492評論 0 0
  • (一)分布式文件系統(tǒng)概述 數(shù)據(jù)量越來越多,在一個操作系統(tǒng)管轄的范圍存不下了,那么就分配到更多的操作系統(tǒng)管理的磁盤中...
    時待吾閱讀 5,439評論 0 1
  • 1. Zookeeper介紹: 1.基本介紹: Zookeeper: 為分布式應(yīng)用提供分布式協(xié)作(協(xié)調(diào))服務(wù)斧散。使用...
    奉先閱讀 4,568評論 0 10
  • Hadoop 2.0是怎樣產(chǎn)生的供常?早期的hadoop版本,NN(namenode)是HDFS集群的單點(diǎn)故障點(diǎn)鸡捐,每...
    值得一看的喵閱讀 1,445評論 0 3
  • 加班結(jié)束栈暇,天已經(jīng)黑了,一個人在辦公樓里安靜坐電梯箍镜、取車源祈、發(fā)動,打開車燈色迂,回家香缺,車路上行走,外面是川流車潮歇僧,不是回家...
    初見16閱讀 157評論 0 0