Stage 是spark 中一個非常重要的概念 降淮,
在一個job 中劃分stage 的一個重要依據(jù)是否有shuflle 發(fā)生 ,也就是是否會發(fā)生數(shù)據(jù)的重組 (重新組織數(shù)據(jù))系吩。
在一個stage 內(nèi)部會有很多的task 被執(zhí)行,在同一個stage 中 所有的task 結(jié)束后才能根據(jù)DAG 依賴執(zhí)行下一個stage 中的task。
job 有很多任務組成,每組任務可以看成是一個stage
Task 是spark 中另一個很重要的概念?
task 跟 partition? block 等概念緊密相連 榨崩,task 是執(zhí)行job 的邏輯單元 ,在task 會在每個executor 中的cpu core 中執(zhí)行
Job 是一個比task 和 stage 更大的邏輯概念,
job 可以認為是我們在driver 或是通過spark-submit 提交的程序中一個action 焦辅,在我們的程序中有很多action? 所有也就對應很多的jobs