經(jīng)常會(huì)遇到如下異常, 某一個(gè)task多次失敗導(dǎo)致作業(yè)失敗. 這種情況下因?yàn)槿萜魍顺? 無法查看日志, 已經(jīng)很難判斷具體的失敗原因.
可以參考如下步驟進(jìn)行簡(jiǎn)單診斷問題,
1. 點(diǎn)擊如下失敗的stage鏈接,
2. 進(jìn)入如下task列表, 可以看到Index 396就是上面異常中的Task 396,? 而對(duì)應(yīng)的四次失敗Attempt 的TID分別是 1165, 1318.
注意:這幾次失敗嘗試發(fā)生的Host完全相同, 表示作業(yè)在同一臺(tái)機(jī)器上反復(fù)執(zhí)行這個(gè)task 4次并均告失敗, 最終導(dǎo)致作業(yè)失敗. 這種情況就極有可能是當(dāng)時(shí)這臺(tái)機(jī)器的狀態(tài)不正炒瓿叮或負(fù)載偏高導(dǎo)致的