記一次Hadoop1.0.4集群的事故

由于歷史原因们妥,公司內(nèi)部還在使用hadoop1.0.4版本的集群猜扮,而且上面運行的任務還挺多。當初開發(fā)這套系統(tǒng)的員工幾乎都離職了监婶,所以這塊成了雞肋旅赢。撤掉吧,上面還有好的用戶惑惶;遷移吧煮盼,涉及的東西太多,影響比較大带污。所以這套系統(tǒng)就只能一直這樣維護著僵控。

終于在一次集群的大事故中,讓大家認識到鱼冀,再也不能用hadoop1.0集群了报破。

一、問題的原因

Hadoop1.0的HDFS元數(shù)據(jù)是存放在fsimage中的雷绢,編輯日志存放在edits泛烙;SecondaryNameNode節(jié)點負責把edits日志合并到fsimage中理卑,用于數(shù)據(jù)恢復翘紊。當遇到edits日志中存在異常的時候,元數(shù)據(jù)不再往edits文件中寫藐唠,而是寫入edits.new文件中帆疟。當發(fā)現(xiàn)這個問題的時候鹉究,就需要在hdfs的安全模式下,使用以下命令進行恢復

hadoop dfsadmin -saveNamespace

但是在沒恢復之前踪宠,如果重啟namenode節(jié)點自赔,問題就大了。我們這邊由于某個mr采用多路徑輸出柳琢,把中文輸出到文件路徑中了绍妨,導致在元數(shù)據(jù)中存放了亂碼,啟動namenode的時候柬脸,fsimage一直檢查不通過他去,異常如下:

ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.io.IOException: Found lease for non-existent file /data/houraggregate/eventself_day/2017/05/01/14/output/_temporary/_attempt_201602020826_208092_r_000006_0/part-r-00006-DESelf_Coi#@$%^Pd
    at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFilesUnderConstruction(FSImage.java:1440)
    at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:986)
    at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:830)
    at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:377)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.loadFSImage(FSDirectory.java:100)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.initialize(FSNamesystem.java:388)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.<init>(FSNamesystem.java:362)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:276)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:496)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1279)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1288)

二、處理過程

既然是edit文件出異常倒堕,就應該修復該文件灾测。查看資料是可以通過以下命令把edit這個二進制文件解析成xml文件的

hdfs oev -i edits -o edits.xml //解析edits文件
hdfs oiv -i fsimage -o fsimage.xml //解析fsimage文件

解析完成后通過以下命令重新轉回二進制文件

hdfs oev -i edits.xml -o edits -p binary //轉換xml文件成edits文件
hdfs oiv -i fsimage.xml-o fsimage -p binary //轉換xml文件成fsimage文件

由于系統(tǒng)是hadoop1.0.4所以不存在 hdfs 這個命令,只好把文件拷貝到hadoop2.6.0上進行操作垦巴。

打開轉換后的xml文件媳搪,把存在亂碼的Recode標簽內(nèi)的記錄都刪除掉,然后在轉換為二進制文件骤宣。

當解析 image 文件的時候秦爆,發(fā)現(xiàn)解析不了,查看資料才發(fā)現(xiàn)涯雅,原來fsimage文件是與hadoop版本一一對應的鲜结。

所以上面所做的所有工作都是無效的。

后面想到活逆,能不能通過查看hadoop寫fsimage文件的過程精刷,然后反過來解析呢?但是這樣處理蔗候,會耗費大量的時間去閱讀源碼怒允,實際情況是不允許的。轉念一想锈遥,能不能把判斷亂碼的代碼修改為纫事,如果遇到就跳過呢?

通過查看異常的堆棧所灸,找到是 FSImage 類的以下代碼報出的異常

for (int i = 0; i < size; i++) {
      INodeFileUnderConstruction cons = readINodeUnderConstruction(in);

      // verify that file exists in namespace
      String path = cons.getLocalName();
      
      INode old = fsDir.getFileINode(path);
      if (old == null) {
        // 從此處報出異常
        throw new IOException("Found lease for non-existent file " + path);
      }
      if (old.isDirectory()) {
        throw new IOException("Found lease for directory " + path);
      }
      INodeFile oldnode = (INodeFile) old;
      fsDir.replaceNode(path, oldnode, cons);
      fs.leaseManager.addLease(cons.clientName, path); 
    }

把代碼修改如下:

for (int i = 0; i < size; i++) {
      INodeFileUnderConstruction cons = readINodeUnderConstruction(in);

      // verify that file exists in namespace
      String path = cons.getLocalName();
      
      // 添加判斷丽惶,把存在異常的路徑過濾掉
      if (path.contains("_temporary")){
          continue;
      }
      
      INode old = fsDir.getFileINode(path);
      if (old == null) {
        throw new IOException("Found lease for non-existent file " + path);
      }
      if (old.isDirectory()) {
        throw new IOException("Found lease for directory " + path);
      }
      INodeFile oldnode = (INodeFile) old;
      fsDir.replaceNode(path, oldnode, cons);
      fs.leaseManager.addLease(cons.clientName, path); 
    }

然后編譯FSImage類,打包到hadoop-core-1.0.4.jar中爬立,放入hadoop1.0.4 namenode節(jié)點的對應目錄下钾唬,重啟namenode進程,終于能正常啟動了。

三抡秆、總結

1奕巍、不能在edits.new存在的情況下,重啟namenode進程

2儒士、hdfs中的路徑不能存在亂碼的止,最后就用字母數(shù)字下劃線這些比較通用的字符來做路徑

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市着撩,隨后出現(xiàn)的幾起案子诅福,更是在濱河造成了極大的恐慌,老刑警劉巖拖叙,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件权谁,死亡現(xiàn)場離奇詭異,居然都是意外死亡憋沿,警方通過查閱死者的電腦和手機旺芽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來辐啄,“玉大人采章,你說我怎么就攤上這事『迹” “怎么了悯舟?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長砸民。 經(jīng)常有香客問我抵怎,道長,這世上最難降的妖魔是什么岭参? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任反惕,我火速辦了婚禮,結果婚禮上演侯,老公的妹妹穿的比我還像新娘姿染。我一直安慰自己,他們只是感情好秒际,可當我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布悬赏。 她就那樣靜靜地躺著,像睡著了一般娄徊。 火紅的嫁衣襯著肌膚如雪闽颇。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天寄锐,我揣著相機與錄音兵多,去河邊找鬼捻脖。 笑死,一個胖子當著我的面吹牛中鼠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播沿癞,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼援雇,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了椎扬?” 一聲冷哼從身側響起惫搏,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蚕涤,沒想到半個月后筐赔,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡揖铜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年茴丰,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片天吓。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡贿肩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出龄寞,到底是詐尸還是另有隱情汰规,我是刑警寧澤,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布物邑,位于F島的核電站溜哮,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏色解。R本人自食惡果不足惜茂嗓,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望科阎。 院中可真熱鬧在抛,春花似錦、人聲如沸萧恕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽票唆。三九已至朴读,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間走趋,已是汗流浹背衅金。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人氮唯。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓鉴吹,卻偏偏與公主長得像,于是被迫代替她去往敵國和親惩琉。 傳聞我的和親對象是個殘疾皇子豆励,可洞房花燭夜當晚...
    茶點故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容