NN和2NN工作機(jī)制
- 思考:NameNode中的元數(shù)據(jù)是存儲在哪里的弃舒?
-
首先,我們做個(gè)假設(shè)状原,如果存儲在NameNode節(jié)點(diǎn)的磁盤中聋呢,因?yàn)榻?jīng)常需要進(jìn)行隨機(jī)訪問,還有響應(yīng)客戶請求,必然是效率過低。因此鬓梅,元數(shù)據(jù)需要存放在內(nèi)存中储耐。但如果只存在內(nèi)存中,一旦斷電,元數(shù)據(jù)丟失,整個(gè)集群就無法工作了。因此產(chǎn)生在磁盤中備份元數(shù)據(jù)的FsImage磨澡。
這樣又會帶來新的問題,當(dāng)在內(nèi)存中的元數(shù)據(jù)更新時(shí)质和,如果同時(shí)更新FsImage稳摄,就會導(dǎo)致效率過低,但如果不更新饲宿,就會發(fā)生一致性問題厦酬,一旦NameNode節(jié)點(diǎn)斷電胆描,就會產(chǎn)生數(shù)據(jù)丟失。因此仗阅,引入Edits文件(只進(jìn)行追加操作昌讲,效率很高)。每當(dāng)元數(shù)據(jù)有更新或者添加元數(shù)據(jù)時(shí)减噪,修改內(nèi)存中的元數(shù)據(jù)并追加到Edits中短绸。這樣,一旦NameNode節(jié)點(diǎn)斷電筹裕,可以通過FsImage和Edits的合并醋闭,合成元數(shù)據(jù)。
但是朝卒,如果長時(shí)間添加數(shù)據(jù)到Edits中证逻,會導(dǎo)致該文件數(shù)據(jù)過大,效率降低扎运,而且一旦斷電瑟曲,恢復(fù)元數(shù)據(jù)需要的時(shí)間過長饮戳。因此豪治,需要定期進(jìn)行FsImage和Edits的合并,如果這個(gè)操作由NameNode節(jié)點(diǎn)完成扯罐,又會效率過低负拟。因此,引入一個(gè)新的節(jié)點(diǎn)SecondaryNamenode歹河,專門用于FsImage和Edits的合并掩浙。
NN和2NN工作機(jī)制,如圖所示:
注意:checkpoint的觸發(fā)條件:
1.定時(shí)時(shí)間:默認(rèn)一個(gè)小時(shí)
2.Edits中的數(shù)據(jù)超過100萬條
第一階段:NameNode啟動
(1)第一次啟動NameNode格式化后秸歧,創(chuàng)建Fsimage和Edits文件厨姚。如果不是第一次啟動,直接加載編輯日志和鏡像文件到內(nèi)存键菱。
(2)客戶端對元數(shù)據(jù)進(jìn)行增刪改的請求谬墙。
(3)NameNode記錄操作日志,更新滾動日志经备。
(4)NameNode在內(nèi)存中對元數(shù)據(jù)進(jìn)行增刪改拭抬。
NameNode啟動中SafeMode安全模式
開始于讀取fsimage文件并生成新的fsimage鏡像文件和edits編輯日志文件,并將新的鏡像文件加載進(jìn)內(nèi)存以后侵蒙。
作用:等待dataNode向他發(fā)送block report
當(dāng)datanode blocks / fsimages block = 99.99% 此時(shí)安全模式退出(不會立即退出造虎,會有一個(gè)緩沖時(shí)間30s,緩沖時(shí)間用于使得文件系統(tǒng)趨于穩(wěn)定)纷闺。
安全模式中能夠進(jìn)行的操作:
能夠進(jìn)行查看文件系統(tǒng)文件的操作
不能夠進(jìn)行創(chuàng)建文件夾算凿,上傳文件份蝴,刪除文件的操作,因?yàn)檫@些操作會改變元數(shù)據(jù)信息氓轰,并且此時(shí)不知道將要操作的塊是否丟失還是被刪除搞乏。
安全模式操作命令:
進(jìn)入安全模式
bin/hdfs dfsadmin -safemode enter
查看模式
bin/hdfs dfsadmin -safemode get
退出安全模式
bin/hdfs dfsadmin -safemode leave
第二階段:Secondary NameNode工作
(1)Secondary NameNode詢問NameNode是否需要CheckPoint。直接帶回NameNode是否檢查結(jié)果戒努。
(2)Secondary NameNode請求執(zhí)行CheckPoint请敦。
(3)NameNode滾動正在寫的Edits日志。
(4)將滾動前的編輯日志和鏡像文件拷貝到Secondary NameNode储玫。
(5)Secondary NameNode加載編輯日志和鏡像文件到內(nèi)存侍筛,并合并。
(6)生成新的鏡像文件fsimage.chkpoint撒穷。
(7)拷貝fsimage.chkpoint到NameNode匣椰。
(8)NameNode將fsimage.chkpoint重新命名成fsimage。
NN和2NN工作機(jī)制詳解:
Fsimage:NameNode內(nèi)存中元數(shù)據(jù)序列化后形成的文件端礼。
Edits:記錄客戶端更新元數(shù)據(jù)信息的每一步操作(可通過Edits運(yùn)算出元數(shù)據(jù))禽笑。
NameNode啟動時(shí),先滾動Edits并生成一個(gè)空的edits.inprogress蛤奥,然后加載Edits和Fsimage到內(nèi)存中佳镜,此時(shí)NameNode內(nèi)存就持有最新的元數(shù)據(jù)信息。Client開始對NameNode發(fā)送元數(shù)據(jù)的增刪改的請求凡桥,這些請求的操作首先會被記錄到edits.inprogress中(查詢元數(shù)據(jù)的操作不會被記錄在Edits中蟀伸,因?yàn)椴樵儾僮鞑粫脑獢?shù)據(jù)信息),如果此時(shí)NameNode掛掉缅刽,重啟后會從Edits中讀取元數(shù)據(jù)的信息啊掏。然后,NameNode會在內(nèi)存中執(zhí)行元數(shù)據(jù)的增刪改的操作衰猛。
由于Edits中記錄的操作會越來越多迟蜜,Edits文件會越來越大,導(dǎo)致NameNode在啟動加載Edits時(shí)會很慢啡省,所以需要對Edits和Fsimage進(jìn)行合并(所謂合并娜睛,就是將Edits和Fsimage加載到內(nèi)存中,照著Edits中的操作一步步執(zhí)行冕杠,最終形成新的Fsimage)微姊。SecondaryNameNode的作用就是幫助NameNode進(jìn)行Edits和Fsimage的合并工作。
SecondaryNameNode首先會詢問NameNode是否需要CheckPoint(觸發(fā)CheckPoint需要滿足兩個(gè)條件中的任意一個(gè)分预,定時(shí)時(shí)間到和Edits中數(shù)據(jù)寫滿了)兢交。直接帶回NameNode是否檢查結(jié)果。SecondaryNameNode執(zhí)行CheckPoint操作笼痹,首先會讓NameNode滾動Edits并生成一個(gè)空的edits.inprogress配喳,滾動Edits的目的是給Edits打個(gè)標(biāo)記酪穿,以后所有新的操作都寫入edits.inprogress,其他未合并的Edits和Fsimage會拷貝到SecondaryNameNode的本地晴裹,然后將拷貝的Edits和Fsimage加載到內(nèi)存中進(jìn)行合并被济,生成fsimage.chkpoint,然后將fsimage.chkpoint拷貝給NameNode涧团,重命名為Fsimage后替換掉原來的Fsimage只磷。NameNode在啟動時(shí)就只需要加載之前未合并的Edits和Fsimage即可,因?yàn)楹喜⑦^的Edits中的元數(shù)據(jù)信息已經(jīng)被記錄在Fsimage中泌绣。