Spark 共享變量底層實(shí)現(xiàn)

??Spark一個(gè)非常重要的特性就是共享變量潜叛。
??默認(rèn)情況下,如果在一個(gè)算子的函數(shù)中使用到了某個(gè)外部的變量适袜,那么這個(gè)變量的值會(huì)被拷貝到每個(gè)task中趁尼,此時(shí)每個(gè)task只能操作自己的那份變量副本。如果多個(gè)task想要共享某個(gè)變量嚎尤,那么這種方式是做不到的荔仁。
??Spark為此提供了兩種共享變量,一種是Broadcast Variable(廣播變量)芽死,另一種是Accumulator(累加變量)乏梁。Broadcast Variable會(huì)將用到的變量,僅僅為每個(gè)節(jié)點(diǎn)拷貝一份关贵,即每個(gè)Executor拷貝一份遇骑,更大的用途是優(yōu)化性能,減少網(wǎng)絡(luò)傳輸以及內(nèi)存損耗揖曾。Accumulator則可以讓多個(gè)task共同操作一份變量落萎,主要可以進(jìn)行累加操作。Broadcast Variable是共享只讀變量炭剪,task不能去修改它练链,而Accumulator可以讓多個(gè)task操作一個(gè)變量。

廣播變量

??廣播變量允許編程者在每個(gè)Executor上保留外部數(shù)據(jù)的只讀變量奴拦,而不是給每個(gè)任務(wù)發(fā)送一個(gè)副本媒鼓。

??每個(gè)task都會(huì)保存一份它所使用的外部變量的副本,當(dāng)一個(gè)Executor上的多個(gè)task都使用一個(gè)大型外部變量時(shí)错妖,對(duì)于Executor內(nèi)存的消耗是非常大的绿鸣,因此,我們可以將大型外部變量封裝為廣播變量暂氯,此時(shí)一個(gè)Executor保存一個(gè)變量副本枚驻,此Executor上的所有task共用此變量,不再是一個(gè)task單獨(dú)保存一個(gè)副本株旷,這在一定程度上降低了Spark任務(wù)的內(nèi)存占用再登。
task使用外部變量

task使用廣播變量

??Spark還嘗試使用高效的廣播算法分發(fā)廣播變量,以降低通信成本晾剖。
??Spark提供的Broadcast Variable是只讀的锉矢,并且在每個(gè)Executor上只會(huì)有一個(gè)副本,而不會(huì)為每個(gè)task都拷貝一份副本齿尽,因此沽损,它的最大作用,就是減少變量到各個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)傳輸消耗循头,以及在各個(gè)節(jié)點(diǎn)上的內(nèi)存消耗绵估。此外炎疆,Spark內(nèi)部也使用了高效的廣播算法來減少網(wǎng)絡(luò)消耗。
??可以通過調(diào)用SparkContext的broadcast()方法來針對(duì)每個(gè)變量創(chuàng)建廣播變量国裳。然后在算子的函數(shù)內(nèi)形入,使用到廣播變量時(shí),每個(gè)Executor只會(huì)拷貝一份副本了缝左,每個(gè)task可以使用廣播變量的value()方法獲取值亿遂。

??在任務(wù)運(yùn)行時(shí),Executor并不獲取廣播變量渺杉,當(dāng)task執(zhí)行到使用廣播變量的代碼時(shí)蛇数,會(huì)向Executor的內(nèi)存中請(qǐng)求廣播變量,如下圖所示:
task向Executor請(qǐng)求廣播變量

??之后Executor會(huì)通過BlockManager向Driver拉取廣播變量是越,然后提供給task進(jìn)行使用耳舅,如下圖所示:
Executor從Driver拉取廣播變量

??廣播大變量是Spark中常用的基礎(chǔ)優(yōu)化方法,通過減少內(nèi)存占用實(shí)現(xiàn)任務(wù)執(zhí)行性能的提升倚评。

累加器

??累加器(accumulator):Accumulator是僅僅被相關(guān)操作累加的變量浦徊,因此可以在并行中被有效地支持。它們可用于實(shí)現(xiàn)計(jì)數(shù)器(如MapReduce)或總和計(jì)數(shù)蔓纠。
??Accumulator是存在于Driver端的辑畦,集群上運(yùn)行的task進(jìn)行Accumulator的累加吗蚌,隨后把值發(fā)到Driver端腿倚,在Driver端匯總(Spark UI在SparkContext創(chuàng)建時(shí)被創(chuàng)建,即在Driver端被創(chuàng)建蚯妇,因此它可以讀取Accumulator的數(shù)值)敷燎,由于Accumulator存在于Driver端,從節(jié)點(diǎn)讀取不到Accumulator的數(shù)值箩言。
??Spark提供的Accumulator主要用于多個(gè)節(jié)點(diǎn)對(duì)一個(gè)變量進(jìn)行共享性的操作硬贯。Accumulator只提供了累加的功能,但是卻給我們提供了多個(gè)task對(duì)于同一個(gè)變量并行操作的功能陨收,但是task只能對(duì)Accumulator進(jìn)行累加操作饭豹,不能讀取它的值,只有Driver程序可以讀取Accumulator的值务漩。

??Accumulator的底層原理如下圖所示:
累加器原理
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末拄衰,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子饵骨,更是在濱河造成了極大的恐慌翘悉,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件居触,死亡現(xiàn)場(chǎng)離奇詭異妖混,居然都是意外死亡老赤,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門制市,熙熙樓的掌柜王于貴愁眉苦臉地迎上來抬旺,“玉大人,你說我怎么就攤上這事息堂∪履” “怎么了?”我有些...
    開封第一講書人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵荣堰,是天一觀的道長(zhǎng)床未。 經(jīng)常有香客問我,道長(zhǎng)振坚,這世上最難降的妖魔是什么薇搁? 我笑而不...
    開封第一講書人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮渡八,結(jié)果婚禮上啃洋,老公的妹妹穿的比我還像新娘。我一直安慰自己屎鳍,他們只是感情好宏娄,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著逮壁,像睡著了一般孵坚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上窥淆,一...
    開封第一講書人閱讀 51,274評(píng)論 1 300
  • 那天卖宠,我揣著相機(jī)與錄音,去河邊找鬼忧饭。 笑死扛伍,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的词裤。 我是一名探鬼主播刺洒,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼吼砂!你這毒婦竟也來了逆航?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤帅刊,失蹤者是張志新(化名)和其女友劉穎纸泡,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡女揭,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年蚤假,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吧兔。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡磷仰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出境蔼,到底是詐尸還是另有隱情灶平,我是刑警寧澤,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布箍土,位于F島的核電站逢享,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏吴藻。R本人自食惡果不足惜瞒爬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望沟堡。 院中可真熱鬧侧但,春花似錦、人聲如沸航罗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粥血。三九已至柏锄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間立莉,已是汗流浹背绢彤。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工七问, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜓耻,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓械巡,卻偏偏與公主長(zhǎng)得像刹淌,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子讥耗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容