Spark(十五) Spark性能調(diào)優(yōu)之Kyro序列化

一削饵、背景

還可以進一步優(yōu)化加叁,優(yōu)化這個序列化格式

  • 默認(rèn)情況下扮休,Spark內(nèi)部是使用Java的序列化機制,ObjectOutputStream / ObjectInputStream拴泌,對象輸入輸出流機制魏身,來進行序列化

  • 這種默認(rèn)序列化機制的好處在于,處理起來比較方便蚪腐;也不需要我們手動去做什么事情箭昵,只是,你在算子里面使用的變量回季,必須是實現(xiàn)Serializable接口的家制,可序列化即可。

  • 但是缺點在于泡一,默認(rèn)的序列化機制的效率不高颤殴,序列化的速度比較慢;序列化以后的數(shù)據(jù)鼻忠,占用的內(nèi)存空間相對還是比較大涵但。

可以手動進行序列化格式的優(yōu)化

  • Spark支持使用Kryo序列化機制。Kryo序列化機制帖蔓,比默認(rèn)的Java序列化機制矮瘟,速度要快,序列化后的數(shù)據(jù)要更小塑娇,大概是Java序列化機制的1/10澈侠。

所以Kryo序列化優(yōu)化以后,可以讓網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)變少埋酬;在集群中耗費的內(nèi)存資源大大減少哨啃。

二、流程圖示

流程示意圖

當(dāng)使用了序列化的持久化級別時写妥,在將每個RDD partition序列化成一個大的字節(jié)數(shù)組時拳球,就會使用Kryo進一步優(yōu)化序列化的效率和性能

在進行stage間的task的shuffle操作時,節(jié)點與節(jié)點之間的task會互相大量通過網(wǎng)絡(luò)拉取和傳輸文件珍特,此時醇坝,這些數(shù)據(jù)既然通過網(wǎng)絡(luò)傳輸,也是可能要序列化的次坡,就會使用Kryo

Kryo序列化機制呼猪,一旦啟用以后,會生效的幾個地方:

1砸琅、算子函數(shù)中使用到的外部變量
2宋距、持久化RDD時進行序列化,StorageLevel.MEMORY_ONLY_SER
3症脂、shuffle

1谚赎、算子函數(shù)中使用到的外部變量,使用Kryo以后:優(yōu)化網(wǎng)絡(luò)傳輸?shù)男阅苡张瘢梢詢?yōu)化集群中內(nèi)存的占用和消耗
2壶唤、持久化RDD,優(yōu)化內(nèi)存的占用和消耗棕所;持久化RDD占用的內(nèi)存越少闸盔,task執(zhí)行的時候,創(chuàng)建的對象琳省,就不至于頻繁的占滿內(nèi)存迎吵,頻繁發(fā)生GC。
3针贬、shuffle:可以優(yōu)化網(wǎng)絡(luò)傳輸?shù)男阅?/p>

三击费、實戰(zhàn)

SparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

首先第一步,在SparkConf中設(shè)置一個屬性桦他,spark.serializer蔫巩,org.apache.spark.serializer.KryoSerializer類;

Kryo之所以沒有被作為默認(rèn)的序列化類庫的原因快压,就要出現(xiàn)了:主要是因為Kryo要求圆仔,如果要達到它的最佳性能的話,那么就一定要注冊你自定義的類(比如嗓节,你的算子函數(shù)中使用到了外部自定義類型的對象變量荧缘,這時,就要求必須注冊你的類拦宣,否則Kryo達不到最佳性能)截粗。

第二步,注冊你使用到的鸵隧,需要通過Kryo序列化的绸罗,一些自定義類,SparkConf.registerKryoClasses()

項目中的使用:
.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
.registerKryoClasses(new Class[]{CategorySortKey.class})

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末豆瘫,一起剝皮案震驚了整個濱河市珊蟀,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖育灸,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腻窒,死亡現(xiàn)場離奇詭異,居然都是意外死亡磅崭,警方通過查閱死者的電腦和手機儿子,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來砸喻,“玉大人柔逼,你說我怎么就攤上這事「畹海” “怎么了愉适?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長癣漆。 經(jīng)常有香客問我维咸,道長,這世上最難降的妖魔是什么扑媚? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任腰湾,我火速辦了婚禮,結(jié)果婚禮上疆股,老公的妹妹穿的比我還像新娘费坊。我一直安慰自己,他們只是感情好旬痹,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布附井。 她就那樣靜靜地躺著,像睡著了一般两残。 火紅的嫁衣襯著肌膚如雪永毅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天人弓,我揣著相機與錄音沼死,去河邊找鬼。 笑死崔赌,一個胖子當(dāng)著我的面吹牛意蛀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播健芭,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼县钥,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了慈迈?” 一聲冷哼從身側(cè)響起若贮,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后谴麦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蠢沿,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年细移,在試婚紗的時候發(fā)現(xiàn)自己被綠了搏予。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡弧轧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出碗殷,到底是詐尸還是另有隱情精绎,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布锌妻,位于F島的核電站代乃,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏仿粹。R本人自食惡果不足惜搁吓,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吭历。 院中可真熱鬧堕仔,春花似錦、人聲如沸晌区。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽朗若。三九已至恼五,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間哭懈,已是汗流浹背灾馒。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留遣总,地道東北人睬罗。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像彤避,于是被迫代替她去往敵國和親傅物。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345