Spark內(nèi)存模型初探(2)-User Memory

在上一篇文章Spark內(nèi)存模型初探(1)-Storage/Execution Memory的使用中酬蹋，我們初步解析了一下Storage/Execution Memory的使用盼理。最后我們也留下了幾個問題嚷节，等待我們解答毅厚。這些問題更多的集中在User Memory上独郎。

而這段時間果漾，經(jīng)過思索，探索虹曙，以及重新閱讀Spark Memory Management迫横，終于解決了大部分。

但是酝碳，本文其實更多的是作者的猜測矾踱，以及配合Spark Memory Management進行驗證。并沒有一個非常嚴謹疏哗，科學的方法來驗證本文的全部猜測呛讲。所以希望讀者在讀本文的時候，保持懷疑的目光。

UserMemory是怎樣被使用的?當我們在RDD.map(function)中的function中初始化新的對象時圣蝎，是在哪部分內(nèi)存被初始化的刃宵？是不是就是UserMemory?

這個問題的答案，其實在原文里就已經(jīng)有了徘公。但是由于當時讀那篇文章的時候，對Spark內(nèi)存并不了解哮针，所以這里并沒有讀懂关面。

原文中有這么一段:

This is the memory pool that remains after the allocation of Spark Memory, and it is completely up to you to use it in a way you like. You can store your own data structures there that would be used in RDD transformations. For example, you can rewrite Spark aggregation by using mapPartitions transformation maintaining hash table for this aggregation to run, which would consume so called User Memory

要說驗證么，我實在是沒想出來辦法驗證十厢。因為從Spark代碼中等太，看不到任何跟User Memory相關的內(nèi)容。而我們知道蛮放，Spark內(nèi)存分為三部分:Reserved Memory, User Memory, Spark Memory(Storage/Execution Memory)缩抡。我們在上篇文章也測試了，function中初始化新的對象時包颁，是不會在Spark Memory中分配的瞻想，更不會在Reserved Memory，所以可能的地方就只有在User Memory了娩嚼。

如果我在`function`里就是要初始化很多個對象蘑险，超過了這個User Memory的大小的話，Spark會怎樣做?

先看原文:

its completely up to you what would be stored in this RAM and how, Spark makes completely no accounting on what you do there and whether you respect this boundary or not. Not respecting this boundary in your code might cause OOM error.

我簡單寫了一點測試代碼岳悟，來測試這個問題:

package com.hypers.spark

import org.apache.spark.{SparkConf, SparkContext}


/**
  *
  * Reading:
  * Task max available memory is executor heap.
  * 
  * And this program will cause OOM because:
  *     User Memory just 200M, but we allocate an Array[Byte] whose size is 500MB
  *
  **/
object TestTaskAvailableMemory {

    def main(args: Array[String]): Unit = {
        val sparkConf = new SparkConf()
            .setMaster("spark://localhost:7077")
            .setAppName("TestSparkCanRun")

        val sparkContext = new SparkContext(sparkConf)

        val rdd = sparkContext.parallelize(Seq(1))

        rdd.map {
            item => {
                val line = Array.fill[Byte](489354548)(0)
                (item, line)
            }
        }.repartition(1).foreach(println(_))

    }

}

這是會導致OOM的佃迄。原因在代碼的注釋里已經(jīng)寫了。

另外贵少，超過User Memory并不一定會導致OOM『乔危現(xiàn)在User Memory的大小大概是200MB左右，我分配一個300MB的Array[Byte]滔灶，是沒問題的普碎。

我使用的JVM參數(shù)是-Xmx1g -XX:+UseSerialGC -XX:-UseAdaptiveSizePolicy -XX:PretenureSizeThreshold=10000000】砥可以看到随常，超過10M的對象，就要直接在老年代分配了萄涯⌒鞣眨可我測試時，老年代的大小是600MB左右涝影。已用100MB枣察。所以這個老年代沒有足夠的空間來進行分配。所以會出現(xiàn)OOM。

為什么不直接在新生代測試呢序目？因為新生代的大小共有300MB左右臂痕，Eden:Survivor1:Survivor2=240MB:30MB:30MB。而我們的User Memory就已經(jīng)200MB+了猿涨，達不到測試的目的握童。

從這兒我們也能看到，其實Spark中叛赚，Storage/Execution Memory的大小澡绩，不會被User Memory擠壓。從Spark的源代碼中俺附，我們就能看到肥卡，它只是一個數(shù)字，是MemoryManager(具體類是UnifiedUserMemory或者StaticUserMemory)初始化時就提供的事镣，它并不會在運行時動態(tài)獲取Java Heap的可用內(nèi)存大小步鉴，進而自動伸縮。

另外璃哟，Storage/Exeuction Memory也不是說氛琢，你Java Heap在我Spark啟動的時候，就給我把Storage/Execution Memory這些內(nèi)存分配好了沮稚，只有我能用艺沼，其它人不能用。它只是申明蕴掏，我需要多少Storage/Execution Memory障般，你User Memory要是用多了，我Storage/Execution Memory到時候用的時候盛杰，你要是給我騰不出來挽荡，那咱倆同歸于盡。

Shuffle時即供，Reducer端接收到的數(shù)據(jù)定拟，是在哪個部分分配的?是不是就是UserMemory？

我認為是在User Memory分配的逗嫡。但是由于Shuffle是ExternalShuffle青自，所以并不會占用過多的內(nèi)存，導致User Memory過大出現(xiàn)OOM驱证。

Spark的內(nèi)存模型延窜，跟Java內(nèi)存模型之間，是什么關系?

假設我們的User Memory是300MB抹锄，而新生代是200MB逆瑞，并且沒有啟用超過閾值就自動在老年代進行分配的機制荠藤。

那我們?nèi)绻赨ser Memory中分配一個250MB的對象，在這種情況下获高，新生代根本就放不下這個對象哈肖，所以即使我們看到User Memory有300MB可用，實際上也不能分配超過200MB的大對象念秧。

其它的Storage/Execution Memory淤井，跟這個道理類似。

疑問

我們可以看到出爹，由于Java內(nèi)存模型的緣故庄吼，我們可能無形之間碰到一些莫名其妙的坑。

而Spark又支持off-heap Memory严就，以及Tungsten，那使用這些又如何呢器罐？有什么優(yōu)缺點呢梢为？

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市轰坊，隨后出現(xiàn)的幾起案子铸董，更是在濱河造成了極大的恐慌，老刑警劉巖肴沫，帶你破解...
沈念sama閱讀 218,682評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件粟害，死亡現(xiàn)場離奇詭異，居然都是意外死亡颤芬，警方通過查閱死者的電腦和手機悲幅，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,277評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來站蝠，“玉大人汰具，你說我怎么就攤上這事×饽В” “怎么了留荔？”我有些...
開封第一講書人閱讀 165,083評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長澜倦。經(jīng)常有香客問我聚蝶，道長，這世上最難降的妖魔是什么藻治？我笑而不...
開封第一講書人閱讀 58,763評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任碘勉，我火速辦了婚禮，結果婚禮上栋艳，老公的妹妹穿的比我還像新娘恰聘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 67,785評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布晴叨。她就那樣靜靜地躺著凿宾，像睡著了一般。火紅的嫁衣襯著肌膚如雪兼蕊。梳的紋絲不亂的頭發(fā)上初厚，一...
開封第一講書人閱讀 51,624評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音孙技，去河邊找鬼产禾。笑死，一個胖子當著我的面吹牛牵啦，可吹牛的內(nèi)容都是我干的亚情。我是一名探鬼主播，決...
沈念sama閱讀 40,358評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼哈雏，長吁一口氣：“原來是場噩夢啊……” “哼楞件！你這毒婦竟也來了？” 一聲冷哼從身側響起裳瘪，我...
開封第一講書人閱讀 39,261評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤土浸，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后彭羹，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體黄伊，經(jīng)...
沈念sama閱讀 45,722評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年派殷，在試婚紗的時候發(fā)現(xiàn)自己被綠了还最。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,030評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡愈腾，死狀恐怖憋活，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情虱黄，我是刑警寧澤悦即，帶...
沈念sama閱讀 35,737評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站橱乱，受9級特大地震影響辜梳，放射性物質發(fā)生泄漏。R本人自食惡果不足惜泳叠，卻給世界環(huán)境...
茶點故事閱讀 41,360評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一作瞄、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧危纫，春花似錦宗挥、人聲如沸乌庶。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,941評論 0贊 22
一樁弒父案契耿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽瞒大。三九已至，卻和暖如春搪桂，著一層夾襖步出監(jiān)牢的瞬間透敌，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,057評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工踢械，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留酗电，地道東北人。一個月前我還...
沈念sama閱讀 48,237評論 3贊 371
代替公主和親
正文我出身青樓内列，卻偏偏與公主長得像撵术，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子话瞧，可洞房花燭夜當晚...
茶點故事閱讀 44,976評論 2贊 355

Spark內(nèi)存模型初探(2)-User Memory

UserMemory是怎樣被使用的?當我們在RDD.map(function)中的function中初始化新的對象時圣蝎，是在哪部分內(nèi)存被初始化的刃宵？是不是就是UserMemory?

如果我在function里就是要初始化很多個對象蘑险，超過了這個User Memory的大小的話，Spark會怎樣做?

Shuffle時即供，Reducer端接收到的數(shù)據(jù)定拟，是在哪個部分分配的?是不是就是UserMemory？

Spark的內(nèi)存模型延窜，跟Java內(nèi)存模型之間，是什么關系?

疑問

推薦閱讀更多精彩內(nèi)容

如果我在`function`里就是要初始化很多個對象蘑险，超過了這個User Memory的大小的話，Spark會怎樣做?