Spark Shuffle Write的演化

目前,spark shuffle write有三種方法:hash shuffle靠汁、sort shuffle和tungsten-sort shuffle。從1.2版本開始默認為sort shuffle兢孝, 之前采用hash shuffle局劲。在1.4版本以后可以通過(spark.shuffle.manager = tungsten-sort)開啟tungsten-sort shuffle。

Hash shuffle

Hash shuffle 經(jīng)歷了有兩個階段晚胡,前一階段的過程如圖:


Hash shuffle第一階段
  1. 每一個Mapper創(chuàng)建出和Reducer數(shù)目相同的bucket灵奖,bucket實際上是一個buffer,其大小為spark.shuffle.file.buffer.kb(默認32KB)估盘。
  2. Mapper產(chǎn)生的結(jié)果會根據(jù)設(shè)置的partition算法填充到每個bucket中去瓷患,然后再寫入到磁盤文件。
  3. Reducer從遠端或是本地的block manager中找到相應(yīng)的文件讀取數(shù)據(jù)遣妥。

這一階段的問題:

  1. 當Mapper數(shù)量和Reducer數(shù)量比較大時擅编,產(chǎn)生輸出大量文件(M * R),這對文件系統(tǒng)是一個非常大的負擔。同時在shuffle數(shù)據(jù)量不大而shuffle文件又非常多的情況下爱态,隨機寫也會嚴重降低IO的性能谭贪。
  2. 緩存空間占用比較大,一個 worker node 上同時存在的 bucket 個數(shù)可以達到 cores*R 個(一般 worker 同時可以運行 cores 個 ShuffleMapTask)锦担。

第二階段改善了第一階段出現(xiàn)的中間shuffle文件數(shù)量多的問題俭识。


Hash shuffle第二階段

與上一階段相比,在同一個 core 上連續(xù)運行的 ShuffleMapTasks 共用一個輸出文件洞渔,這樣產(chǎn)生shuffle文件的數(shù)量是cores*R套媚,比上一階段減少。

Sort shuffle

sort-shuffle.png

與hash shuffle相比磁椒,sort shuffle中每個Mapper只產(chǎn)生一個數(shù)據(jù)文件和一個索引文件堤瘤,數(shù)據(jù)文件中的數(shù)據(jù)按照Reducer排序,但屬于同一個Reducer的數(shù)據(jù)不排序浆熔。Mapper產(chǎn)生的數(shù)據(jù)先放到AppendOnlyMap這個數(shù)據(jù)結(jié)構(gòu)中本辐,如果內(nèi)存不夠,數(shù)據(jù)則會spill到磁盤医增,最后合并成一個文件慎皱。
與Hash shuffle相比,shuffle文件數(shù)量減少调窍,內(nèi)存使用更加可控宝冕。但排序會影響速度。In case you use SSD drives for the temporary data of Spark shuffles, hash shuffle might work better for you(來自于https://0x0fff.com/spark-architecture-shuffle/)邓萨。

Tungsten-sort shuffle

與Sort shuffle相比地梨,Tungsten最大不同在于內(nèi)存管理機制。Tungsten采用獨特的內(nèi)存模型來存儲數(shù)據(jù)缔恳,而Sort shuffle采用Java的數(shù)據(jù)結(jié)構(gòu)AppendOnlyMap來存儲數(shù)據(jù)宝剖,并且存儲的數(shù)據(jù)是序列化的。這種獨特的內(nèi)存模型叫做page歉甚。序列化后的數(shù)據(jù)放在page中万细,當page滿后,spill到磁盤文件纸泄,然后從新allocate一個新的page(如果spark.unsafe.offHeap=true赖钞,會從off-heap分配內(nèi)存,否則聘裁,從in-heap分配內(nèi)存)雪营。最后將page里數(shù)據(jù)和spilled磁盤文件merge到一個文件里。注意merge的時候不需要反序列化(sort shuffle需要)衡便。
為了數(shù)據(jù)record在page中尋址献起,定義了PackedRecordPointer對象用一個64bit的long型變量來記錄如下信息:

[24 bit partition number][13 bit memory page number][27 bit offset in page]洋访。

注意這些信息是用來將數(shù)據(jù)按照partition進行排序。從這些信息中谴餐,我們得到如下的約束姻政。
一是partition 的數(shù)量(Reducer的數(shù)目)最多為2^24=16777216。
二是單條記錄不能大于 2^27=128 MB岂嗓,加上page數(shù)目限制汁展,一個task 能管理到的內(nèi)存最多是 2^13 * 128M 也就是1TB左右。


Paste_Image.png

數(shù)據(jù)是序列化后放在內(nèi)存厌殉,所以占據(jù)的內(nèi)存空間小善镰,減少了spill的次數(shù)。sort是在序列化的數(shù)據(jù)上進行年枕,效率更高。merge時不需要反序列數(shù)據(jù)乎完。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末熏兄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子树姨,更是在濱河造成了極大的恐慌摩桶,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件帽揪,死亡現(xiàn)場離奇詭異硝清,居然都是意外死亡,警方通過查閱死者的電腦和手機转晰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門芦拿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人查邢,你說我怎么就攤上這事蔗崎。” “怎么了扰藕?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵缓苛,是天一觀的道長。 經(jīng)常有香客問我邓深,道長未桥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任芥备,我火速辦了婚禮冬耿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘门躯。我一直安慰自己淆党,他們只是感情好,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著染乌,像睡著了一般山孔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上荷憋,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天台颠,我揣著相機與錄音,去河邊找鬼勒庄。 笑死串前,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的实蔽。 我是一名探鬼主播荡碾,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼局装!你這毒婦竟也來了坛吁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤铐尚,失蹤者是張志新(化名)和其女友劉穎拨脉,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宣增,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡玫膀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了爹脾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片帖旨。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖誉简,靈堂內(nèi)的尸體忽然破棺而出碉就,到底是詐尸還是另有隱情,我是刑警寧澤闷串,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布瓮钥,位于F島的核電站,受9級特大地震影響烹吵,放射性物質(zhì)發(fā)生泄漏碉熄。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一肋拔、第九天 我趴在偏房一處隱蔽的房頂上張望锈津。 院中可真熱鬧,春花似錦凉蜂、人聲如沸琼梆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽茎杂。三九已至错览,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間煌往,已是汗流浹背倾哺。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刽脖,地道東北人羞海。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像曲管,于是被迫代替她去往敵國和親却邓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容