Spark編程模型

Spark簡述

下圖是Spark和MapReduce進(jìn)行邏輯回歸機(jī)器學(xué)習(xí)的性能比較,Spark比MapReduce快100多倍沾谜。

image

除了速度更快,Spark和MapReduce相比胀莹,還有更簡單易用的編程模型基跑。使用Scala語言在Spark上編寫WordCount程序,主要代碼只需要三行描焰。


val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
                 .map(word => (word, 1))
                 .reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")

Spark核心概念

RDD

RDD是Spark的核心概念媳否,是彈性數(shù)據(jù)集(Resilient Distributed Datasets)的縮寫。RDD既是Spark面向開發(fā)者的編程模型荆秦,又是Spark自身架構(gòu)的核心元素篱竭。
Spark則直接針對數(shù)據(jù)進(jìn)行編程,將大規(guī)模數(shù)據(jù)集合抽象成一個(gè)RDD對象步绸,然后在這個(gè)RDD上進(jìn)行各種計(jì)算處理掺逼,得到一個(gè)新的RDD,繼續(xù)計(jì)算處理瓤介,直到得到最后的結(jié)果數(shù)據(jù)坪圾。所以Spark可以理解成是面向?qū)ο蟮拇髷?shù)據(jù)計(jì)算。我們在進(jìn)行Spark編程的時(shí)候惑朦,思考的是一個(gè)RDD對象需要經(jīng)過什么樣的操作,轉(zhuǎn)換成另一個(gè)RDD對象漓概,思考的重心和落腳點(diǎn)都在RDD上漾月。

轉(zhuǎn)換函數(shù)

RDD上定義的函數(shù)分兩種:

  • 一種是轉(zhuǎn)換(transformation)函數(shù),這種函數(shù)的返回值還是RDD胃珍;
  • 另一種是執(zhí)行(action)函數(shù)梁肿,這種函數(shù)不再返回RDD。

RDD定義了很多轉(zhuǎn)換操作函數(shù)觅彰,比如有計(jì)算map(func)吩蔑、過濾filter(func)、合并數(shù)據(jù)集union(otherDataset)填抬、根據(jù)Key聚合reduceByKey(func, [numPartitions])烛芬、連接數(shù)據(jù)集join(otherDataset, [numPartitions])、分組groupByKey([numPartitions])等十幾個(gè)函數(shù)飒责。

image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末赘娄,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子宏蛉,更是在濱河造成了極大的恐慌遣臼,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拾并,死亡現(xiàn)場離奇詭異揍堰,居然都是意外死亡鹏浅,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門屏歹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來隐砸,“玉大人,你說我怎么就攤上這事西采』巳” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵械馆,是天一觀的道長胖眷。 經(jīng)常有香客問我,道長霹崎,這世上最難降的妖魔是什么珊搀? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮尾菇,結(jié)果婚禮上境析,老公的妹妹穿的比我還像新娘。我一直安慰自己派诬,他們只是感情好劳淆,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著默赂,像睡著了一般沛鸵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上缆八,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天曲掰,我揣著相機(jī)與錄音,去河邊找鬼奈辰。 笑死栏妖,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的奖恰。 我是一名探鬼主播吊趾,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼瑟啃!你這毒婦竟也來了趾徽?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤翰守,失蹤者是張志新(化名)和其女友劉穎孵奶,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜡峰,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡了袁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年朗恳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片载绿。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡粥诫,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出崭庸,到底是詐尸還是另有隱情怀浆,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布怕享,位于F島的核電站执赡,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏函筋。R本人自食惡果不足惜沙合,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望跌帐。 院中可真熱鬧首懈,春花似錦、人聲如沸谨敛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽脸狸。三九已至最仑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肥惭,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工紊搪, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜜葱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓耀石,卻偏偏與公主長得像牵囤,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子滞伟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • Spark 編程模型有兩個(gè)主要的抽象揭鳞,第一個(gè)是彈性數(shù)據(jù)集 RDD(Resilient Distributed Da...
    Alex90閱讀 941評論 0 0
  • 循序漸進(jìn)學(xué)Saprk 與Hadoop相比,Spark最初為提升性能而誕生梆奈。Spark是Hadoop MapRedu...
    Albert陳凱閱讀 429評論 1 1
  • 本文主要翻譯至鏈接且不局限于該文內(nèi)容亩钟,也加入了筆者實(shí)踐內(nèi)容乓梨,翻譯水平有限鳖轰,歡迎指正,轉(zhuǎn)載請注明出處扶镀。由于篇幅較長蕴侣,...
    Souloose閱讀 1,567評論 0 3
  • 在《第一篇|Spark概覽》一文中,對Spark的整體面貌進(jìn)行了闡述臭觉。本文將深入探究Spark的核心組件--Spa...
  • Spark核心技術(shù)與高級應(yīng)用 第4章 編程模型 不自見昆雀,故明;不自是蝠筑,故彰狞膘;不自伐,故有功菱肖;不自矜客冈,故能長。 ——...
    Albert陳凱閱讀 339評論 0 0