spark學(xué)習(xí)二RDD(Core部分)

1夺颤、簡(jiǎn)介

RDD(Resilient Distributed Dataset)叫做彈性分布式數(shù)據(jù)集是Spark中最基本的數(shù)據(jù)抽象谣殊,它代表一個(gè)不可變拂共、可分區(qū)、里面的元素可并行計(jì)算的集合姻几。RDD具有數(shù)據(jù)流模型的特點(diǎn):自動(dòng)容錯(cuò)宜狐、位置感知性調(diào)度和可伸縮性。

2蛇捌、特性

只讀:

RDD在創(chuàng)建之后只允許讀操作抚恒,不允許寫操作,每個(gè)計(jì)算操作都是產(chǎn)生新的RDD

分區(qū):

RDD會(huì)把其中的元素進(jìn)行partition分區(qū)络拌,計(jì)算是以分區(qū)為單位進(jìn)行

容錯(cuò):

相比其他系統(tǒng)的細(xì)顆粒度的內(nèi)存數(shù)據(jù)更新級(jí)別的備份或者LOG機(jī)制俭驮,RDD的血緣關(guān)系記錄的是粗顆粒度的特定數(shù)據(jù)Transformation操作(如filter、map春贸、join等)行為混萝。當(dāng)這個(gè)RDD的部分分區(qū)數(shù)據(jù)丟失時(shí),它可以通過Lineage獲取足夠的信息來重新運(yùn)算和恢復(fù)丟失的數(shù)據(jù)分區(qū)萍恕。因?yàn)檫@種粗顆粒的數(shù)據(jù)模型逸嘀,限制了Spark的運(yùn)用場(chǎng)合,所以Spark并不適用于所有高性能要求的場(chǎng)景允粤,但同時(shí)相比細(xì)顆粒度的數(shù)據(jù)模型崭倘,也帶來了性能的提升。

RDD依賴:

RDD一般由讀取文件或者并行化數(shù)組產(chǎn)生类垫,通過每次的transformation操作都會(huì)產(chǎn)生新的一個(gè)RDD司光,然后RDD之間的依賴關(guān)系稱為血緣,子RDD通過父RDD和算子就能夠得到悉患。

緩存:

RDD可以通過persist方法進(jìn)行緩存操作残家,把RDD放到每個(gè)worker上的executor上,這樣該RDD就可以不用傳給每個(gè)task售躁,增加計(jì)算速度明顯

3跪削、spark代碼運(yùn)行(推薦)

?1)idea等工具運(yùn)行spark代碼谴仙,通過maven構(gòu)建項(xiàng)目引入對(duì)應(yīng)gav

?2)spark-shell交互工具迂求,spark的bin目錄:./bin/spark-shell --master local[4]

可以通過ui進(jìn)行監(jiān)控碾盐,啟動(dòng)日志可以看到監(jiān)聽端口

?3)spark-submit提交,把本地開發(fā)好的項(xiàng)目打成jar包揩局,然后通過spark-submit命令運(yùn)行

4毫玖、創(chuàng)建RDD

其中sc為SparkContext對(duì)象

并行化數(shù)組方式


讀取文件

5、RDD測(cè)試代碼

測(cè)試代碼

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末凌盯,一起剝皮案震驚了整個(gè)濱河市付枫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌驰怎,老刑警劉巖阐滩,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異县忌,居然都是意外死亡掂榔,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門症杏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來装获,“玉大人,你說我怎么就攤上這事厉颤⊙ㄔィ” “怎么了?”我有些...
    開封第一講書人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵逼友,是天一觀的道長(zhǎng)精肃。 經(jīng)常有香客問我,道長(zhǎng)帜乞,這世上最難降的妖魔是什么司抱? 我笑而不...
    開封第一講書人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮挖函,結(jié)果婚禮上状植,老公的妹妹穿的比我還像新娘。我一直安慰自己怨喘,他們只是感情好津畸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著必怜,像睡著了一般肉拓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上梳庆,一...
    開封第一講書人閱讀 51,562評(píng)論 1 305
  • 那天暖途,我揣著相機(jī)與錄音卑惜,去河邊找鬼。 笑死驻售,一個(gè)胖子當(dāng)著我的面吹牛露久,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播欺栗,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼毫痕,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了迟几?” 一聲冷哼從身側(cè)響起消请,我...
    開封第一講書人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎类腮,沒想到半個(gè)月后臊泰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蚜枢,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年缸逃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片祟偷。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡察滑,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出修肠,到底是詐尸還是另有隱情贺辰,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布嵌施,位于F島的核電站饲化,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏吗伤。R本人自食惡果不足惜吃靠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望足淆。 院中可真熱鬧巢块,春花似錦、人聲如沸巧号。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽丹鸿。三九已至越走,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背廊敌。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工铜跑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人骡澈。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓锅纺,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親秧廉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子伞广,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容