Spark IO機(jī)制

Spark進(jìn)行IO不僅考慮本地開銷,還有數(shù)據(jù)在不同主機(jī)之間的開銷袜硫,同時(shí)對(duì)數(shù)據(jù)的尋址方式也要改變婉陷,以應(yīng)對(duì)大數(shù)據(jù)

序列化
- 用于進(jìn)程間通信官研,不同節(jié)點(diǎn)之間數(shù)據(jù)傳輸
- 用于持久化存儲(chǔ)到磁盤,序列化速度影響集群總體效率
在默認(rèn)情況下担神,Spark采用Java的ObjectOutputStream序列化一個(gè)對(duì)象始花。該方式適用于所有實(shí)現(xiàn)了java.io.Serializable的類酷宵。Java序列化非常靈活,但是速度較慢炕置。Spark也能使用Kryo序列化對(duì)象男韧。Kryo不但速度極快,而且產(chǎn)生的結(jié)果更為緊湊(通常能提高10倍)甚纲。Kryo的缺點(diǎn)是不支持所有類型

壓縮
- 序列化后的數(shù)據(jù)進(jìn)行壓縮朦前,減少空間開銷
- 大片連續(xù)區(qū)域進(jìn)行數(shù)據(jù)存儲(chǔ)并且存儲(chǔ)區(qū)域中數(shù)據(jù)重復(fù)性高的狀況下,數(shù)據(jù)適合進(jìn)行壓縮節(jié)省空間
Spark采用兩種壓縮算法这溅,snappy和LZF悲靴,可以自定義壓縮庫
Snappy壓縮速度更快,LZF壓縮比更高

塊管理
RDD邏輯上按照Partition分塊耸三,RDD可以看作是一個(gè)分區(qū)作為數(shù)據(jù)項(xiàng)的分布式數(shù)組浇揩,物理上存儲(chǔ)單位是Block,一個(gè)Partition對(duì)應(yīng)一個(gè)Block积锅,partitionId通過元數(shù)據(jù)映射到物理Block

整體IO管理分為兩個(gè)層次
通信層:IO模塊采用Master-Slave結(jié)構(gòu)實(shí)現(xiàn)通信層的架構(gòu)
存儲(chǔ)層:Spark塊數(shù)據(jù)需要存儲(chǔ)到內(nèi)存或者磁盤

BlockManager中的通信
主節(jié)點(diǎn)和從節(jié)點(diǎn)之間通過Actor傳送消息傳遞命令和狀態(tài)

數(shù)據(jù)讀寫

數(shù)據(jù)寫入:
1.RDD調(diào)用compute()方法進(jìn)行制定分區(qū)的寫入缚陷。
2.CacheManager中調(diào)用BlockManager判斷數(shù)據(jù)是否已經(jīng)寫入往核,如果未寫入則寫入聂儒。
3.BlockManager中數(shù)據(jù)與其他節(jié)點(diǎn)同步。
4.BlockManager根據(jù)存儲(chǔ)級(jí)別寫入制定的存儲(chǔ)層窜护。
5.BlockManager向主節(jié)點(diǎn)匯報(bào)存儲(chǔ)狀態(tài)谅猾。

數(shù)據(jù)讀取:
在RDD類中坐搔,通過compute方法調(diào)用iterator讀寫某個(gè)分區(qū)(Partition)敬矩,作為數(shù)據(jù)讀取的入口弧岳。分區(qū)是邏輯概念凳忙,在物理上是一個(gè)Block业踏。

通過BlockManager讀取代碼進(jìn)入讀取邏輯,在本地同步讀取數(shù)據(jù)塊涧卵,首先看能否在內(nèi)存讀取數(shù)據(jù)塊勤家,如果不能讀取,則看能否從Tacjyon讀取數(shù)據(jù)塊柳恐,如果仍不能讀取伐脖,則看能否從本地磁盤讀取數(shù)據(jù)。如果仍不存在乐设,再看看網(wǎng)絡(luò)中其它節(jié)點(diǎn)是否有數(shù)據(jù)讼庇。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市近尚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌戈锻,老刑警劉巖歼跟,帶你破解...
    沈念sama閱讀 218,036評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異舶沛,居然都是意外死亡嘹承,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門如庭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人撼港,你說我怎么就攤上這事坪它。” “怎么了帝牡?”我有些...
    開封第一講書人閱讀 164,411評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵往毡,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我靶溜,道長(zhǎng)开瞭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,622評(píng)論 1 293
  • 正文 為了忘掉前任罩息,我火速辦了婚禮嗤详,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘瓷炮。我一直安慰自己葱色,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評(píng)論 6 392
  • 文/花漫 我一把揭開白布娘香。 她就那樣靜靜地躺著办龄,像睡著了一般。 火紅的嫁衣襯著肌膚如雪俐填。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,521評(píng)論 1 304
  • 那天玷禽,我揣著相機(jī)與錄音,去河邊找鬼呀打。 笑死矢赁,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的撩银。 我是一名探鬼主播,決...
    沈念sama閱讀 40,288評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼额获,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了恭应?” 一聲冷哼從身側(cè)響起抄邀,我...
    開封第一講書人閱讀 39,200評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎昼榛,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胆屿,經(jīng)...
    沈念sama閱讀 45,644評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評(píng)論 3 336
  • 正文 我和宋清朗相戀三年环鲤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了憎兽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冷离。...
    茶點(diǎn)故事閱讀 39,953評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡纯命,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扎附,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 35,673評(píng)論 5 346
  • 正文 年R本政府宣布图甜,位于F島的核電站鳖眼,受9級(jí)特大地震影響黑毅,放射性物質(zhì)發(fā)生泄漏钦讳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評(píng)論 3 329
  • 文/蒙蒙 一愿卒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧易结,春花似錦、人聲如沸搞动。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至辅柴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間碌识,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留牡拇,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,119評(píng)論 3 370
  • 正文 我出身青樓导俘,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親旅薄。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容