Spark 共享變量底層實(shí)現(xiàn)

??Spark一個(gè)非常重要的特性就是共享變量潜叛。
??默認(rèn)情況下，如果在一個(gè)算子的函數(shù)中使用到了某個(gè)外部的變量适袜，那么這個(gè)變量的值會(huì)被拷貝到每個(gè)task中趁尼，此時(shí)每個(gè)task只能操作自己的那份變量副本。如果多個(gè)task想要共享某個(gè)變量嚎尤，那么這種方式是做不到的荔仁。
??Spark為此提供了兩種共享變量，一種是Broadcast Variable（廣播變量）芽死，另一種是Accumulator（累加變量）乏梁。Broadcast Variable會(huì)將用到的變量，僅僅為每個(gè)節(jié)點(diǎn)拷貝一份关贵，即每個(gè)Executor拷貝一份遇骑，更大的用途是優(yōu)化性能，減少網(wǎng)絡(luò)傳輸以及內(nèi)存損耗揖曾。Accumulator則可以讓多個(gè)task共同操作一份變量落萎，主要可以進(jìn)行累加操作。Broadcast Variable是共享只讀變量炭剪，task不能去修改它练链，而Accumulator可以讓多個(gè)task操作一個(gè)變量。

廣播變量

??廣播變量允許編程者在每個(gè)Executor上保留外部數(shù)據(jù)的只讀變量奴拦，而不是給每個(gè)任務(wù)發(fā)送一個(gè)副本媒鼓。

??每個(gè)task都會(huì)保存一份它所使用的外部變量的副本，當(dāng)一個(gè)Executor上的多個(gè)task都使用一個(gè)大型外部變量時(shí)错妖，對(duì)于Executor內(nèi)存的消耗是非常大的绿鸣，因此，我們可以將大型外部變量封裝為廣播變量暂氯，此時(shí)一個(gè)Executor保存一個(gè)變量副本枚驻，此Executor上的所有task共用此變量，不再是一個(gè)task單獨(dú)保存一個(gè)副本株旷，這在一定程度上降低了Spark任務(wù)的內(nèi)存占用再登。

task使用外部變量

task使用廣播變量

??Spark還嘗試使用高效的廣播算法分發(fā)廣播變量，以降低通信成本晾剖。
??Spark提供的Broadcast Variable是只讀的锉矢，并且在每個(gè)Executor上只會(huì)有一個(gè)副本，而不會(huì)為每個(gè)task都拷貝一份副本齿尽，因此沽损，它的最大作用，就是減少變量到各個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)傳輸消耗循头，以及在各個(gè)節(jié)點(diǎn)上的內(nèi)存消耗绵估。此外炎疆，Spark內(nèi)部也使用了高效的廣播算法來減少網(wǎng)絡(luò)消耗。
??可以通過調(diào)用SparkContext的broadcast()方法來針對(duì)每個(gè)變量創(chuàng)建廣播變量国裳。然后在算子的函數(shù)內(nèi)形入，使用到廣播變量時(shí)，每個(gè)Executor只會(huì)拷貝一份副本了缝左，每個(gè)task可以使用廣播變量的value()方法獲取值亿遂。

??在任務(wù)運(yùn)行時(shí)，Executor并不獲取廣播變量渺杉，當(dāng)task執(zhí)行到使用廣播變量的代碼時(shí)蛇数，會(huì)向Executor的內(nèi)存中請(qǐng)求廣播變量，如下圖所示：

task向Executor請(qǐng)求廣播變量

??之后Executor會(huì)通過BlockManager向Driver拉取廣播變量是越，然后提供給task進(jìn)行使用耳舅，如下圖所示：

Executor從Driver拉取廣播變量

??廣播大變量是Spark中常用的基礎(chǔ)優(yōu)化方法，通過減少內(nèi)存占用實(shí)現(xiàn)任務(wù)執(zhí)行性能的提升倚评。

累加器

??累加器（accumulator）：Accumulator是僅僅被相關(guān)操作累加的變量浦徊，因此可以在并行中被有效地支持。它們可用于實(shí)現(xiàn)計(jì)數(shù)器（如MapReduce）或總和計(jì)數(shù)蔓纠。
??Accumulator是存在于Driver端的辑畦，集群上運(yùn)行的task進(jìn)行Accumulator的累加吗蚌，隨后把值發(fā)到Driver端腿倚，在Driver端匯總（Spark UI在SparkContext創(chuàng)建時(shí)被創(chuàng)建，即在Driver端被創(chuàng)建蚯妇，因此它可以讀取Accumulator的數(shù)值）敷燎，由于Accumulator存在于Driver端，從節(jié)點(diǎn)讀取不到Accumulator的數(shù)值箩言。
??Spark提供的Accumulator主要用于多個(gè)節(jié)點(diǎn)對(duì)一個(gè)變量進(jìn)行共享性的操作硬贯。Accumulator只提供了累加的功能，但是卻給我們提供了多個(gè)task對(duì)于同一個(gè)變量并行操作的功能陨收，但是task只能對(duì)Accumulator進(jìn)行累加操作饭豹，不能讀取它的值，只有Driver程序可以讀取Accumulator的值务漩。

??Accumulator的底層原理如下圖所示：

累加器原理

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末拄衰，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子饵骨，更是在濱河造成了極大的恐慌翘悉，老刑警劉巖，帶你破解...
沈念sama閱讀 217,084評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件居触，死亡現(xiàn)場(chǎng)離奇詭異妖混，居然都是意外死亡老赤，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,623評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門制市，熙熙樓的掌柜王于貴愁眉苦臉地迎上來抬旺，“玉大人，你說我怎么就攤上這事息堂∪履” “怎么了？”我有些...
開封第一講書人閱讀 163,450評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵荣堰，是天一觀的道長(zhǎng)床未。經(jīng)常有香客問我，道長(zhǎng)振坚，這世上最難降的妖魔是什么薇搁？我笑而不...
開封第一講書人閱讀 58,322評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮渡八，結(jié)果婚禮上啃洋，老公的妹妹穿的比我還像新娘。我一直安慰自己屎鳍，他們只是感情好宏娄，可當(dāng)我...
茶點(diǎn)故事閱讀 67,370評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著逮壁，像睡著了一般孵坚。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上窥淆，一...
開封第一講書人閱讀 51,274評(píng)論 1贊 300
城市分裂傳說
那天卖宠，我揣著相機(jī)與錄音，去河邊找鬼忧饭。笑死扛伍，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的词裤。我是一名探鬼主播刺洒，決...
沈念sama閱讀 40,126評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼吼砂！你這毒婦竟也來了逆航？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,980評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤帅刊，失蹤者是張志新（化名）和其女友劉穎纸泡，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,414評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡女揭，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,599評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年蚤假，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吧兔。...
茶點(diǎn)故事閱讀 39,773評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡磷仰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出境蔼，到底是詐尸還是另有隱情灶平，我是刑警寧澤，帶...
沈念sama閱讀 35,470評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布箍土，位于F島的核電站逢享，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏吴藻。R本人自食惡果不足惜瞒爬，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,080評(píng)論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望沟堡。院中可真熱鬧侧但，春花似錦、人聲如沸航罗。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,713評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽粥血。三九已至柏锄，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間立莉，已是汗流浹背绢彤。一陣腳步聲響...
開封第一講書人閱讀 32,852評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工七问，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜓耻，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,865評(píng)論 2贊 370
代替公主和親
正文我出身青樓械巡，卻偏偏與公主長(zhǎng)得像刹淌，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子讥耗，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,689評(píng)論 2贊 354

Spark 共享變量底層實(shí)現(xiàn)

廣播變量

累加器

推薦閱讀更多精彩內(nèi)容