Spark IO機(jī)制

Spark進(jìn)行IO不僅考慮本地開銷，還有數(shù)據(jù)在不同主機(jī)之間的開銷袜硫，同時(shí)對(duì)數(shù)據(jù)的尋址方式也要改變婉陷，以應(yīng)對(duì)大數(shù)據(jù)

序列化
- 用于進(jìn)程間通信官研，不同節(jié)點(diǎn)之間數(shù)據(jù)傳輸
- 用于持久化存儲(chǔ)到磁盤，序列化速度影響集群總體效率
在默認(rèn)情況下担神，Spark采用Java的ObjectOutputStream序列化一個(gè)對(duì)象始花。該方式適用于所有實(shí)現(xiàn)了java.io.Serializable的類酷宵。Java序列化非常靈活，但是速度較慢炕置。Spark也能使用Kryo序列化對(duì)象男韧。Kryo不但速度極快，而且產(chǎn)生的結(jié)果更為緊湊（通常能提高10倍）甚纲。Kryo的缺點(diǎn)是不支持所有類型

壓縮
- 序列化后的數(shù)據(jù)進(jìn)行壓縮朦前，減少空間開銷
- 大片連續(xù)區(qū)域進(jìn)行數(shù)據(jù)存儲(chǔ)并且存儲(chǔ)區(qū)域中數(shù)據(jù)重復(fù)性高的狀況下，數(shù)據(jù)適合進(jìn)行壓縮節(jié)省空間
Spark采用兩種壓縮算法这溅，snappy和LZF悲靴，可以自定義壓縮庫
Snappy壓縮速度更快，LZF壓縮比更高

塊管理
RDD邏輯上按照Partition分塊耸三，RDD可以看作是一個(gè)分區(qū)作為數(shù)據(jù)項(xiàng)的分布式數(shù)組浇揩，物理上存儲(chǔ)單位是Block，一個(gè)Partition對(duì)應(yīng)一個(gè)Block积锅，partitionId通過元數(shù)據(jù)映射到物理Block

整體IO管理分為兩個(gè)層次
通信層：IO模塊采用Master-Slave結(jié)構(gòu)實(shí)現(xiàn)通信層的架構(gòu)
存儲(chǔ)層：Spark塊數(shù)據(jù)需要存儲(chǔ)到內(nèi)存或者磁盤

BlockManager中的通信
主節(jié)點(diǎn)和從節(jié)點(diǎn)之間通過Actor傳送消息傳遞命令和狀態(tài)

數(shù)據(jù)讀寫

數(shù)據(jù)寫入：
1.RDD調(diào)用compute()方法進(jìn)行制定分區(qū)的寫入缚陷。
2.CacheManager中調(diào)用BlockManager判斷數(shù)據(jù)是否已經(jīng)寫入往核，如果未寫入則寫入聂儒。
3.BlockManager中數(shù)據(jù)與其他節(jié)點(diǎn)同步。
4.BlockManager根據(jù)存儲(chǔ)級(jí)別寫入制定的存儲(chǔ)層窜护。
5.BlockManager向主節(jié)點(diǎn)匯報(bào)存儲(chǔ)狀態(tài)谅猾。

數(shù)據(jù)讀取：
在RDD類中坐搔，通過compute方法調(diào)用iterator讀寫某個(gè)分區(qū)（Partition）敬矩，作為數(shù)據(jù)讀取的入口弧岳。分區(qū)是邏輯概念凳忙，在物理上是一個(gè)Block业踏。

通過BlockManager讀取代碼進(jìn)入讀取邏輯，在本地同步讀取數(shù)據(jù)塊涧卵，首先看能否在內(nèi)存讀取數(shù)據(jù)塊勤家，如果不能讀取，則看能否從Tacjyon讀取數(shù)據(jù)塊柳恐，如果仍不能讀取伐脖，則看能否從本地磁盤讀取數(shù)據(jù)。如果仍不存在乐设，再看看網(wǎng)絡(luò)中其它節(jié)點(diǎn)是否有數(shù)據(jù)讼庇。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市近尚，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌戈锻，老刑警劉巖歼跟，帶你破解...
沈念sama閱讀 218,036評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異舶沛，居然都是意外死亡嘹承，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門如庭，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人撼港，你說我怎么就攤上這事坪它。” “怎么了帝牡？”我有些...
開封第一講書人閱讀 164,411評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵往毡，是天一觀的道長(zhǎng)。經(jīng)常有香客問我靶溜，道長(zhǎng)开瞭，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,622評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任罩息，我火速辦了婚禮嗤详，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘瓷炮。我一直安慰自己葱色，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,661評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布娘香。她就那樣靜靜地躺著办龄，像睡著了一般。火紅的嫁衣襯著肌膚如雪俐填。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,521評(píng)論 1贊 304
城市分裂傳說
那天玷禽，我揣著相機(jī)與錄音，去河邊找鬼呀打。笑死矢赁，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的撩银。我是一名探鬼主播，決...
沈念sama閱讀 40,288評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼额获，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了恭应？” 一聲冷哼從身側(cè)響起抄邀，我...
開封第一講書人閱讀 39,200評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎昼榛，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胆屿，經(jīng)...
沈念sama閱讀 45,644評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,837評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年环鲤，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了憎兽。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冷离。...
茶點(diǎn)故事閱讀 39,953評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡纯命，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出扎附，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 35,673評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布图甜，位于F島的核電站鳖眼，受9級(jí)特大地震影響黑毅，放射性物質(zhì)發(fā)生泄漏钦讳。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,281評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一愿卒、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧易结，春花似錦、人聲如沸搞动。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評(píng)論 0贊 22
一樁弒父案鹦肿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至辅柴，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間碌识，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,011評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留牡拇，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,119評(píng)論 3贊 370
代替公主和親
正文我出身青樓导俘，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親旅薄。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,901評(píng)論 2贊 355

Spark IO機(jī)制

推薦閱讀更多精彩內(nèi)容