Hadoop YARN 從節(jié)點NodeManager異常

Hadoop服務(wù)好一陣沒管了娘汞,今天上線發(fā)現(xiàn)從節(jié)點已宕機锈死。
重啟服務(wù)后蝙搔,有個從節(jié)點只運行了DataNode而沒有NodeManager進程钓辆,查看日志報錯如下剪验。

2020-03-14 11:26:37,654 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.net.BindException: Problem binding to [0.0.0.0:8040] java.net.BindException: Address already in use; For more details see:  http://wiki.apache.org/hadoop/BindException
        at org.apache.hadoop.yarn.factories.impl.pb.RpcServerFactoryPBImpl.getServer(RpcServerFactoryPBImpl.java:138)
        at org.apache.hadoop.yarn.ipc.HadoopYarnProtoRPC.getServer(HadoopYarnProtoRPC.java:65)
        at org.apache.hadoop.yarn.ipc.YarnRPC.getServer(YarnRPC.java:54)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.ResourceLocalizationService.createServer(ResourceLocalizationService.java:412)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.ResourceLocalizationService.serviceStart(ResourceLocalizationService.java:388)
        at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
        at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.ContainerManagerImpl.serviceStart(ContainerManagerImpl.java:668)
        at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
        at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
        at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
        at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:937)
        at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:1016)
Caused by: java.net.BindException: Problem binding to [0.0.0.0:8040] java.net.BindException: Address already in use; For more details see:  http://wiki.apache.org/hadoop/BindException
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
        at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:831)
        at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:736)
        at org.apache.hadoop.ipc.Server.bind(Server.java:621)
        at org.apache.hadoop.ipc.Server$Listener.<init>(Server.java:1185)
        at org.apache.hadoop.ipc.Server.<init>(Server.java:3067)
        at org.apache.hadoop.ipc.RPC$Server.<init>(RPC.java:1005)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server.<init>(ProtobufRpcEngine.java:426)
        at org.apache.hadoop.ipc.ProtobufRpcEngine.getServer(ProtobufRpcEngine.java:347)
        at org.apache.hadoop.ipc.RPC$Builder.build(RPC.java:846)
        at org.apache.hadoop.yarn.factories.impl.pb.RpcServerFactoryPBImpl.createServer(RpcServerFactoryPBImpl.java:172)
        at org.apache.hadoop.yarn.factories.impl.pb.RpcServerFactoryPBImpl.getServer(RpcServerFactoryPBImpl.java:131)
        ... 12 more
Caused by: java.net.BindException: Address already in use
        at sun.nio.ch.Net.bind0(Native Method)
        at sun.nio.ch.Net.bind(Net.java:433)
        at sun.nio.ch.Net.bind(Net.java:425)
        at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:220)

敲重點:Problem binding to [0.0.0.0:8040]......Address already in use
$ netstat anp | grep 8040 查看該端口并未被占用哼绑。如果被占用了就kill -9 {PROCESS_ID}
$ ./sbin/start-yarn.sh 在該節(jié)點單獨重啟服務(wù),啟動成功碉咆。

問題解決了,追蹤溯源了一下蛀恩,發(fā)現(xiàn)該節(jié)點經(jīng)常出現(xiàn)問題pdsh@blockchain-004: blockchain-003: ssh exited with exit code 1疫铜。
推測:節(jié)點與master的ssh連接斷開了,但節(jié)點本地的NodeMagager進程當時仍在運行双谆;此時Master重連上該點的SSH之后壳咕,嘗試重啟該節(jié)點的NodeMagager服務(wù),造成服務(wù)沖突出錯顽馋。而當我發(fā)現(xiàn)時谓厘,之前的NodeManager也已經(jīng)自動結(jié)束了,造成了“謊報軍情”的假象寸谜。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末竟稳,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子熊痴,更是在濱河造成了極大的恐慌他爸,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件果善,死亡現(xiàn)場離奇詭異诊笤,居然都是意外死亡,警方通過查閱死者的電腦和手機巾陕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門讨跟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鄙煤,你說我怎么就攤上這事晾匠。” “怎么了梯刚?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵混聊,是天一觀的道長。 經(jīng)常有香客問我乾巧,道長句喜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任沟于,我火速辦了婚禮咳胃,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘旷太。我一直安慰自己展懈,他們只是感情好销睁,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著存崖,像睡著了一般冻记。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上来惧,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天冗栗,我揣著相機與錄音,去河邊找鬼供搀。 笑死隅居,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的葛虐。 我是一名探鬼主播胎源,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼屿脐!你這毒婦竟也來了涕蚤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤的诵,失蹤者是張志新(化名)和其女友劉穎赞季,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奢驯,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡申钩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了瘪阁。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撒遣。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖管跺,靈堂內(nèi)的尸體忽然破棺而出义黎,到底是詐尸還是另有隱情,我是刑警寧澤豁跑,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布廉涕,位于F島的核電站,受9級特大地震影響艇拍,放射性物質(zhì)發(fā)生泄漏狐蜕。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一卸夕、第九天 我趴在偏房一處隱蔽的房頂上張望层释。 院中可真熱鬧,春花似錦快集、人聲如沸贡羔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乖寒。三九已至猴蹂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間楣嘁,已是汗流浹背磅轻。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留马澈,地道東北人。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓弄息,卻偏偏與公主長得像痊班,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子摹量,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355