Spark-RDD持久化

(1) persist算子

  • 使用方法:
var rdd = sc.textFile("test")
rdd = rdd.persist(StorageLevel.MEMORY_ONLY)
val count = rdd.count() //或者其他操作

  • StorageLevel說明:

StorageLevel的構造函數(shù):

class StorageLevel private(
    private var _useDisk: Boolean, # 是否存入磁盤
    private var _useMemory: Boolean, # 是否存入內存
    private var _useOffHeap: Boolean, # 是否使用堆外內存
    private var _deserialized: Boolean, # 是否不進行序列化
    private var _replication: Int = 1 # 副本數(shù)(默認為1))

StorageLevel object中已經定義了幾種代表RDD持久化的級別:

image.png

使用不同參數(shù)的組合構造的實例被預先定義為一些值苫费,比如MEMORY_ONLY代表著不存入磁盤染厅,存入內存,不使用堆外內存,不進行序列化,副本數(shù)為1,使用persisit()方法時把這些持久化的級別作為參數(shù)傳入即可。

(2) cache算子

cache() = persist(StorageLevel.MEMORY_ONLY)

(3) checkpoint算子:可以把RDD持久化到HDFS

使用方法:

使用方法:
sc.setCheckpointDir("hdfs://...")
var rdd = sc.textFile("test")
rdd.checkpoint()
val count = rdd.count() //或者其他操作

checkpoint()執(zhí)行原理:

  1. 當RDD的job執(zhí)行完畢后,會從finalRDD從后往前回溯
  2. 當回溯到調用了checkpoint()方法的RDD后蹦疑,會給這個RDD做一個標記
  3. Spark框架自動啟動一個新的job,計算這個RDD的數(shù)據(jù)互墓,然后把數(shù)據(jù)持久化到HDFS上
  4. 優(yōu)化:對某個RDD執(zhí)行checkpoint()之前必尼,對該RDD執(zhí)行cache(),這樣的話篡撵,新啟動的job只需要把內存中的數(shù)據(jù)上傳到HDFS中即可判莉,不需要重新計算。

(4) 關于這3個算子的幾點說明

  1. 這3個算子都是Transformations類算子育谬,需要Actions類算子觸發(fā)才能執(zhí)行
  2. cache 和 persist 算子的返回執(zhí)行必須賦值給一個變量券盅,在接下來的job中直接使用這個變量,那么就是使用了持久化的數(shù)據(jù)了膛檀,如果application中只有一個job锰镀,沒有必要使用RDD持久化
  3. cache 和 persist 算子后不能立即緊跟action類算子,比如count算子咖刃,但是在下一行可以有action類算子
error : 
    cache().count()  
right : 
    rdd = rdd.cache()   
    rdd.count()

  1. checkpoint()算子執(zhí)行后就切斷了RDD之間的依賴
    當業(yè)務邏輯很復雜時泳炉,RDD之間頻繁轉換,RDD的血統(tǒng)很長嚎杨,如果中間某個RDD的數(shù)據(jù)丟失花鹅,還需要重新從頭計算,如果對中間某個RDD調用了checkpoint()方法枫浙,把這個RDD上傳到HDFS刨肃,同時讓后面的RDD不再依賴于這個RDD,而是依賴于HDFS上的數(shù)據(jù)箩帚,那么下次計算會方便很多真友。
  2. checkpoint持久化到磁盤和persist持久化到磁盤的區(qū)別
  • persist()把RDD持久化到磁盤,這個RDD的持久化數(shù)據(jù)保存在Worker的工作目錄下紧帕,且當整個application執(zhí)行結束后盔然,就會自動刪除持久化的數(shù)據(jù)
  • checkpoint()持久化到指定的目錄,可以是HDFS是嗜,而且永久保存
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末轻纪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子叠纷,更是在濱河造成了極大的恐慌,老刑警劉巖潦嘶,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涩嚣,死亡現(xiàn)場離奇詭異崇众,居然都是意外死亡,警方通過查閱死者的電腦和手機航厚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門顷歌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人幔睬,你說我怎么就攤上這事眯漩。” “怎么了麻顶?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵赦抖,是天一觀的道長。 經常有香客問我辅肾,道長队萤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任矫钓,我火速辦了婚禮要尔,結果婚禮上,老公的妹妹穿的比我還像新娘新娜。我一直安慰自己赵辕,他們只是感情好,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布概龄。 她就那樣靜靜地躺著还惠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪旁钧。 梳的紋絲不亂的頭發(fā)上吸重,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天,我揣著相機與錄音歪今,去河邊找鬼嚎幸。 笑死,一個胖子當著我的面吹牛寄猩,可吹牛的內容都是我干的嫉晶。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼田篇,長吁一口氣:“原來是場噩夢啊……” “哼替废!你這毒婦竟也來了?” 一聲冷哼從身側響起泊柬,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤椎镣,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后兽赁,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體状答,經...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡冷守,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了惊科。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拍摇。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖馆截,靈堂內的尸體忽然破棺而出充活,到底是詐尸還是另有隱情,我是刑警寧澤蜡娶,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布混卵,位于F島的核電站,受9級特大地震影響翎蹈,放射性物質發(fā)生泄漏淮菠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一荤堪、第九天 我趴在偏房一處隱蔽的房頂上張望合陵。 院中可真熱鬧,春花似錦澄阳、人聲如沸拥知。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽低剔。三九已至,卻和暖如春肮塞,著一層夾襖步出監(jiān)牢的瞬間襟齿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工枕赵, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留猜欺,地道東北人。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓拷窜,卻偏偏與公主長得像开皿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子篮昧,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內容

  • 曾經我夢想像武俠小說中的英雄一樣浪跡天涯懊昨,曾經我渴望一夜暴富窄潭,從此不再為錢而煩惱,曾經我被最好的朋友欺騙酵颁,曾經?當...
    香水佬閱讀 282評論 0 1
  • 茫茫塵世杳杳如夢 我如花笑靨開遍浩瀚宇宙 在每一個心起的剎那 都如初見
    片月生海閱讀 186評論 0 0
  • 4月8日下午嫉你,山東創(chuàng)新教育研究院院務工作擴大會議暨縣域教育聯(lián)盟啟動會議在青島市黃島區(qū)雙語小學順利召開信认。山東省教...
    光陰_bd7e閱讀 419評論 0 0