RDD編程

RDD基礎(chǔ)

  • RDD:Resilient Distributed Datasets唱星,彈性分布式數(shù)據(jù)集

  • 分布在集群中的只讀對(duì)象集合(由多個(gè)分區(qū)(Partition)構(gòu)成乱豆,這些分區(qū)運(yùn)行在集群中的不同節(jié)點(diǎn)上)

  • 可以存儲(chǔ)在磁盤或內(nèi)存中(多種存儲(chǔ)級(jí)別)

  • 通過并行“轉(zhuǎn)換”操作構(gòu)造

  • 失效后自動(dòng)重構(gòu)

  • RDD可以包含Python局扶、java吉执、Scala中任意類型的對(duì)象挺益,甚至可以包含用戶自定義的對(duì)象涕蚤。

  • 兩種方法創(chuàng)建RDD:

  • 1.讀取外部數(shù)據(jù)集宪卿。

  • 2.在驅(qū)動(dòng)程序里分發(fā)驅(qū)動(dòng)器程序中的對(duì)象集合(比如list和set)。

  • RDD支持兩種類型操作

    • 1.轉(zhuǎn)化操作(tranformation):由一個(gè)RDD生成一個(gè)新的RDD.舊的RDD不會(huì)被改變万栅。map佑钾、filter、groupBy烦粒、reduceBy
    • 2.行動(dòng)操作(action):對(duì)RDD計(jì)算出一個(gè)結(jié)果休溶,并把結(jié)果返回到驅(qū)動(dòng)程序中,或者寫入外部存儲(chǔ)系統(tǒng)中。count兽掰、collect芭碍、saveAsTextFile
      • 注:轉(zhuǎn)化操作返回的是RDD,行動(dòng)操作返回的是其它數(shù)據(jù)類型禾进。


        操作示例
  • 惰性求值

  • 轉(zhuǎn)化操作和行動(dòng)操作的區(qū)別在于Spark計(jì)算RDD的方式不同豁跑。RDD的轉(zhuǎn)化操作都是惰性求值廉涕,即對(duì)RDD調(diào)用轉(zhuǎn)化操作(如map())時(shí)泻云,操作不會(huì)立即執(zhí)行,它們只有第一次在一個(gè)行動(dòng)操作中用到時(shí)才會(huì)真正計(jì)算狐蜕。

  • 默認(rèn)情況下宠纯,Spark的RDD會(huì)在每次對(duì)它們進(jìn)行行動(dòng)操作時(shí)重新計(jì)算,如果想在多個(gè)行動(dòng)操作中重用同一個(gè)RDD,可以使用RDD.persist()层释,讓Spark把這個(gè)RDD緩存起來婆瓜。默認(rèn)緩存到內(nèi)存中(以分區(qū)方式存儲(chǔ)到集群中各個(gè)機(jī)器上)

  • 持久化(緩存)

    • 持久化原因如上。持久化數(shù)據(jù)丟失怎么辦贡羔?讓Spark持久化一個(gè)RDD廉白,計(jì)算出RDD的節(jié)點(diǎn)會(huì)分別保存它們所求出的分區(qū)數(shù)據(jù),如果一個(gè)有持久化的節(jié)點(diǎn)發(fā)生故障乖寒,Spark會(huì)在用到緩存的數(shù)據(jù)時(shí)重算丟失的數(shù)據(jù)分區(qū)猴蹂,當(dāng)然可以把數(shù)據(jù)備份到多個(gè)節(jié)點(diǎn)上,以避免單節(jié)點(diǎn)故障拖累進(jìn)度楣嘁。
  • 持久化數(shù)據(jù)方式:默認(rèn)情況下persist()會(huì)把數(shù)據(jù)以序列化的形式緩存在JVM的堆空間中磅轻,當(dāng)我們把數(shù)據(jù)寫到磁盤或堆外存儲(chǔ)上是也總是使用序列化數(shù)據(jù)。

  • 持久化級(jí)別:
    如果采用緩存在內(nèi)存中的級(jí)別逐虚,當(dāng)內(nèi)存放不下是聋溜,Spark會(huì)自動(dòng)利用最近最少使用(LRU)的策略吧最老的分區(qū)從內(nèi)存中移除。

  • image.png

向Spark傳遞函數(shù)

  • Spark 的大部分轉(zhuǎn)化操作和一部分行動(dòng)操作叭爱,都需要依賴用戶傳遞的函數(shù)來計(jì)算撮躁。
  • 在Scala 中,我們可以把定義的內(nèi)聯(lián)函數(shù)买雾、方法的引用靜態(tài)方法傳遞給Spark馒胆,就像Scala 的其他函數(shù)式API 一樣。我們還要考慮其他一些細(xì)節(jié)凝果,比如所傳遞的函數(shù)及其引用的數(shù)據(jù)需要是可序列化的(實(shí)現(xiàn)了Java 的Serializable 接口)祝迂。
  • 如果在Scala 中出現(xiàn)了NotSerializableException,通常問題就在于我們傳遞了一個(gè)不可序列化的類中的函數(shù)或字段器净。記住型雳,傳遞局部可序列化變量或頂級(jí)對(duì)象中的函數(shù)始終是安全的。

常見轉(zhuǎn)化操作和行動(dòng)操作

Transformation與Action實(shí)現(xiàn)
  • sample(withReplacement, fraction, seed):對(duì)RDD采樣,以及是否替換纠俭。

  • 對(duì)一個(gè)RDD的轉(zhuǎn)化操作
  • 對(duì)兩個(gè)RDD的轉(zhuǎn)化操作
  • 對(duì)一個(gè)RDD進(jìn)行的行動(dòng)操作

一個(gè)完整案例

wordcount案例
程序執(zhí)行流程
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末沿量,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子冤荆,更是在濱河造成了極大的恐慌朴则,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钓简,死亡現(xiàn)場(chǎng)離奇詭異乌妒,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)外邓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門撤蚊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人损话,你說我怎么就攤上這事侦啸。” “怎么了丧枪?”我有些...
    開封第一講書人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵光涂,是天一觀的道長。 經(jīng)常有香客問我拧烦,道長忘闻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任屎篱,我火速辦了婚禮服赎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘交播。我一直安慰自己重虑,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開白布秦士。 她就那樣靜靜地躺著缺厉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪隧土。 梳的紋絲不亂的頭發(fā)上提针,一...
    開封第一講書人閱讀 51,198評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音曹傀,去河邊找鬼辐脖。 笑死,一個(gè)胖子當(dāng)著我的面吹牛皆愉,可吹牛的內(nèi)容都是我干的嗜价。 我是一名探鬼主播艇抠,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼久锥!你這毒婦竟也來了家淤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤瑟由,失蹤者是張志新(化名)和其女友劉穎絮重,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體歹苦,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡青伤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了暂氯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潮模。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡亮蛔,死狀恐怖痴施,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情究流,我是刑警寧澤辣吃,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站芬探,受9級(jí)特大地震影響神得,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜偷仿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一哩簿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧酝静,春花似錦节榜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至薄榛,卻和暖如春讳窟,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背敞恋。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來泰國打工丽啡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人硬猫。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓补箍,卻偏偏與公主長得像倚评,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子馏予,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容