RDD之間的依賴關(guān)系是指RDD之間的上下來源關(guān)系粘我,RDD2依賴RDD1鲁沥,RDD4依賴于RDD2和RDD3,RDD7依賴于RDD6和RDD4晚胡。
?shuffle的算子一般都會是寬依賴档叔,比如groupByKey两踏、reduceByKey司草、join等艰垂,寬依賴是一對多的關(guān)系泡仗,窄依賴是一對一關(guān)系
假如stage1中的寬依賴計算過程報錯猜憎,右邊其中某個partition錯誤娩怎,馬上會重新計算,把寬依賴的左邊的partitions全部重新計算胰柑,重新得到右邊的partition截亦,所以在處理過程中,把某個寬依賴的數(shù)據(jù)cache到內(nèi)存中柬讨,是常用方法崩瓤。
每個partition的計算就是一個task,task是調(diào)度的基本單位踩官,若一個stage中的包含了其他stage的任務(wù)全部完成却桶,這個stage中的任務(wù)才會被加入調(diào)度。