最近摆碉,看了幾部女主戲塘匣,覺(jué)得里面的男綠葉眼神里總是飽含著憂傷,總是不快樂(lè)兆解。其實(shí)女主戲里的男主,更加真實(shí)跑揉,因?yàn)樗麄儽池?fù)著女主給他們的壓力和不快樂(lè)锅睛。比如埠巨,最近HDFS集群不時(shí)會(huì)有以下異常:
每次出現(xiàn)該異常,重啟HDFS集群现拒,就可以恢復(fù)正常辣垒。但生產(chǎn)環(huán)境肯定不能三天兩頭重啟集群。于是嘗試HA機(jī)制下滾動(dòng)重啟印蔬。
系統(tǒng)的NameNode已經(jīng)開(kāi)啟了HA模式勋桶,即主備模式。
最開(kāi)始侥猬,由于異常發(fā)生在NameNode主節(jié)點(diǎn)例驹,認(rèn)為是主節(jié)點(diǎn)checkpoint發(fā)生異常,故重啟主節(jié)點(diǎn)退唠,預(yù)期會(huì)產(chǎn)生主備切換鹃锈,但重啟之后,并未發(fā)生主備切換瞧预,主節(jié)點(diǎn)依然不良屎债。
并且在活動(dòng)節(jié)點(diǎn)重啟時(shí),發(fā)生了以下告警:
意味著并未發(fā)生主備切換垢油,而是集群直接不良盆驹,也就是說(shuō),其實(shí)出問(wèn)題的是備用節(jié)點(diǎn)滩愁。
那就直接重啟備用節(jié)點(diǎn)好了躯喇,依然出現(xiàn)開(kāi)始的問(wèn)題。
也就是說(shuō)惊楼,備用節(jié)點(diǎn)上的checkpoint出現(xiàn)了問(wèn)題玖瘸,可能和主節(jié)點(diǎn)不同步。
嘗試停止備用節(jié)點(diǎn)檀咙,刪除備用節(jié)點(diǎn)上的/dfs/nn1目錄雅倒,并把主節(jié)點(diǎn)的/dfs/nn1目錄scp到備用節(jié)點(diǎn)上。再啟動(dòng)弧可,問(wèn)題解決蔑匣。
結(jié)論:備用節(jié)點(diǎn)因?yàn)槲粗蚴チ撕蚃ournalNodes的通信,導(dǎo)致落后棕诵,但備用節(jié)點(diǎn)在重啟之后并不會(huì)追趕主節(jié)點(diǎn)的事務(wù)變化裁良。可能和JournalNodes的設(shè)計(jì)是輕量級(jí)校套,并未保存失去通信和重啟這一段時(shí)間所有的事務(wù)价脾。因此必須通過(guò)手動(dòng)同步實(shí)現(xiàn)主備節(jié)點(diǎn)的edit log一致。以上僅是個(gè)人推測(cè)笛匙,還望運(yùn)維店長(zhǎng)斧正侨把。