Spark Streaming源碼解讀之RDD生成全生命周期徹底研究和思考 - 簡書
http://www.reibang.com/p/e3ab39e61cc7
RDD的三個問題
1.RDD到底是怎么生成的
2.具體執(zhí)行的時候,是否和基于Spark Core上的RDD有所不同,runtime級別的
3.運行之后我們對RDD如何處理星瘾。會隨batch duration不斷的產(chǎn)生RDD,內(nèi)存無法完全容納這些對象妓布。
每個batch
duration產(chǎn)生的作業(yè)執(zhí)行完RDD之后怎么對以有的RDD進行管理是一個問題。
RDD生成的全生命周期:
ForEachDStream不一定會觸發(fā)job的執(zhí)行载佳,會觸發(fā)job產(chǎn)生,但job真正產(chǎn)生是由timer定時器產(chǎn)生的。
對DStream進行操作其實就是對RDD進行操作恨溜,是因為DStream就是一套RDD的模板符衔,后面的DStream與前面的DStream有依賴關(guān)系找前。因為從后往前依賴所以可以推出前面的RDD(回溯)
文/陽光男孩spark(簡書作者)
原文鏈接:http://www.reibang.com/p/e3ab39e61cc7
著作權(quán)歸作者所有糟袁,轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),并標注“簡書作者”躺盛。