Spark中Task兄裂,Partition,RDD阳藻、節(jié)點(diǎn)數(shù)晰奖、Executor數(shù)、core數(shù)目的關(guān)系和Application腥泥,Driver匾南,Job,Task蛔外,Stage理解

輸入可能以多個文件的形式存儲在HDFS上蛆楞,每個File都包含了很多塊溯乒,稱為Block。

當(dāng)Spark讀取這些文件作為輸入時豹爹,會根據(jù)具體數(shù)據(jù)格式對應(yīng)的InputFormat進(jìn)行解析裆悄,一般是將若干個Block合并成一個輸入分片,稱為InputSplit臂聋,注意InputSplit不能跨越文件光稼。

隨后將為這些輸入分片生成具體的Task。InputSplit與Task是一一對應(yīng)的關(guān)系孩等。

隨后這些具體的Task每個都會被分配到集群上的某個節(jié)點(diǎn)的某個Executor去執(zhí)行艾君。

每個節(jié)點(diǎn)可以起一個或多個Executor。

每個Executor由若干core組成肄方,每個Executor的每個core一次只能執(zhí)行一個Task腻贰。

每個Task執(zhí)行的結(jié)果就是生成了目標(biāo)RDD的一個partiton。

注意:?這里的core是虛擬的core而不是機(jī)器的物理CPU核扒秸,可以理解為就是Executor的一個工作線程播演。

而 Task被執(zhí)行的并發(fā)度 = Executor數(shù)目 * 每個Executor核數(shù)。

至于partition的數(shù)目:

對于數(shù)據(jù)讀入階段伴奥,例如sc.textFile写烤,輸入文件被劃分為多少InputSplit就會需要多少初始Task。

在Map階段partition數(shù)目保持不變拾徙。

在Reduce階段洲炊,RDD的聚合會觸發(fā)shuffle操作,聚合后的RDD的partition數(shù)目跟具體操作有關(guān)尼啡,例如repartition操作會聚合成指定分區(qū)數(shù)暂衡,還有一些算子是可配置的。

1崖瞭,Application

application(應(yīng)用)其實(shí)就是用spark-submit提交的程序狂巢。比方說spark examples中的計算pi的SparkPi。一個application通常包含三部分:從數(shù)據(jù)源(比方說HDFS)取數(shù)據(jù)形成RDD书聚,通過RDD的transformation和action進(jìn)行計算唧领,將結(jié)果輸出到console或者外部存儲(比方說collect收集輸出到console)。

2雌续,Driver

?Spark中的driver感覺其實(shí)和yarn中Application Master的功能相類似斩个。主要完成任務(wù)的調(diào)度以及和executor和cluster manager進(jìn)行協(xié)調(diào)。有client和cluster聯(lián)眾模式驯杜。client模式driver在任務(wù)提交的機(jī)器上運(yùn)行受啥,而cluster模式會隨機(jī)選擇機(jī)器中的一臺機(jī)器啟動driver。從spark官網(wǎng)截圖的一張圖可以大致了解driver的功能。


3滚局,Job

?Spark中的Job和MR中Job不一樣不一樣叁温。MR中Job主要是Map或者Reduce Job。而Spark的Job其實(shí)很好區(qū)別核畴,一個action算子就算一個Job膝但,比方說count,first等谤草。

4, Task

Task是Spark中最新的執(zhí)行單元跟束。RDD一般是帶有partitions的,每個partition的在一個executor上的執(zhí)行可以任務(wù)是一個Task丑孩。?

5, Stage

Stage概念是spark中獨(dú)有的冀宴。一般而言一個Job會切換成一定數(shù)量的stage。各個stage之間按照順序執(zhí)行温学。至于stage是怎么切分的略贮,首選得知道spark論文中提到的narrow dependency(窄依賴)和wide dependency( 寬依賴)的概念。其實(shí)很好區(qū)分仗岖,看一下父RDD中的數(shù)據(jù)是否進(jìn)入不同的子RDD逃延,如果只進(jìn)入到一個子RDD則是窄依賴,否則就是寬依賴轧拄。寬依賴和窄依賴的邊界就是stage的劃分點(diǎn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末揽祥,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子檩电,更是在濱河造成了極大的恐慌拄丰,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件俐末,死亡現(xiàn)場離奇詭異料按,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)卓箫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門载矿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人丽柿,你說我怎么就攤上這事恢准。” “怎么了甫题?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長涂召。 經(jīng)常有香客問我坠非,道長,這世上最難降的妖魔是什么果正? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任炎码,我火速辦了婚禮盟迟,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘潦闲。我一直安慰自己攒菠,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布歉闰。 她就那樣靜靜地躺著辖众,像睡著了一般。 火紅的嫁衣襯著肌膚如雪和敬。 梳的紋絲不亂的頭發(fā)上凹炸,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天,我揣著相機(jī)與錄音昼弟,去河邊找鬼啤它。 笑死,一個胖子當(dāng)著我的面吹牛舱痘,可吹牛的內(nèi)容都是我干的变骡。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼芭逝,長吁一口氣:“原來是場噩夢啊……” “哼锣光!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起铝耻,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤誊爹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瓢捉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體频丘,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年泡态,在試婚紗的時候發(fā)現(xiàn)自己被綠了搂漠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡某弦,死狀恐怖桐汤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情靶壮,我是刑警寧澤怔毛,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站腾降,受9級特大地震影響拣度,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一抗果、第九天 我趴在偏房一處隱蔽的房頂上張望筋帖。 院中可真熱鬧,春花似錦冤馏、人聲如沸日麸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽代箭。三九已至,卻和暖如春睦霎,著一層夾襖步出監(jiān)牢的瞬間梢卸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工副女, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蛤高,地道東北人。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓碑幅,卻偏偏與公主長得像戴陡,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子沟涨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容