SPARK

RDD

RDD(Resilient Distributed Datasets)即彈性分布式數(shù)據(jù)集及汉。即使用RDD以及對(duì)應(yīng)的transform/action等操作來(lái)執(zhí)行分布式計(jì)算。彈性:即可伸縮坷随,由于RDD的數(shù)據(jù)的存儲(chǔ)是數(shù)據(jù)+算子的結(jié)構(gòu)存儲(chǔ)。即RDD的每個(gè)數(shù)據(jù)區(qū)中的數(shù)據(jù)不一定就是真實(shí)的數(shù)據(jù)温眉。比如說(shuō)(V1,1) a => a + 1 就是對(duì)(V1,1)這樣的鍵值對(duì)的value進(jìn)行加1操作育叁。只有在真正調(diào)用的時(shí)候才會(huì)返回具體的結(jié)果豪嗽。

SPARK與HADOOP

  • spark與hadoop都有MapReduce的通用的并行計(jì)算框架,但是不同的是spark的MapReduce處理的結(jié)果會(huì)根據(jù)配置緩存到內(nèi)存豌骏,或者磁盤中。下次計(jì)算效率會(huì)更高窃躲。
  • Spark更適合于迭代運(yùn)算比較多的運(yùn)算,因?yàn)樗目缮炜s性蒂窒,不會(huì)出現(xiàn)過多的計(jì)算過程的臨時(shí)RDD荞怒。
  • Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作褐桌。spark還提供了map, filter, flatMap, sample, groupByKey, reduceByKey, union, join等一系列操作∠笥可以進(jìn)行更復(fù)雜的數(shù)據(jù)計(jì)算。
  • spark通過checkpoint來(lái)實(shí)現(xiàn)容錯(cuò)砾淌。即對(duì)那些運(yùn)算量比較大,計(jì)算時(shí)間比較長(zhǎng)的RDD進(jìn)行設(shè)置checkpoint汪厨。允許Sparkstreaming周期性的將程序的數(shù)據(jù),保存到可靠系統(tǒng)劫乱。
  • Spark提供了豐富的Scala, Java, Python API及交互式Shell,兼容多種語(yǔ)言要拂。
  • Spark兼容Hadoop,spark可以讀取HDFS數(shù)據(jù)脱惰。

快速上手

gradle配置:

compile("org.apache.spark:spark-core_2.10:1.1.0")

JavaSparkContext:

SparkConf conf = new SparkConf().setAppName("MySpark")
                                        .setMaster("local")//master地址搏嗡,這里使用本地模式
                                        .set("spark.executor.memory", "128m")//每個(gè)executor所使用的內(nèi)存拉一。;
        return new JavaSparkContext(conf);

獲取RDD數(shù)據(jù):

JavaRDD<String> lines = javaSparkContext.textFile(path).cache();//這里可以直接讀取本地文件,也可以讀取hdfs數(shù)據(jù)蔚润。

得到lines后就可以進(jìn)行一系列的運(yùn)算操作了。比如計(jì)算每個(gè)單詞的個(gè)數(shù)嫡纠。

Map<String, Long> result = lines.flatMap(s -> Arrays.asList(s.split(" "))).countByValue();

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市除盏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌者蠕,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件踱侣,死亡現(xiàn)場(chǎng)離奇詭異大磺,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)杠愧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門突想,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)究抓,“玉大人猾担,你說(shuō)我怎么就攤上這事刺下。” “怎么了橘茉?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)畅卓。 經(jīng)常有香客問我,道長(zhǎng)翁潘,這世上最難降的妖魔是什么趁冈? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任拜马,我火速辦了婚禮,結(jié)果婚禮上俩莽,老公的妹妹穿的比我還像新娘。我一直安慰自己扮超,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布出刷。 她就那樣靜靜地躺著,像睡著了一般巷蚪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上屁柏,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天有送,我揣著相機(jī)與錄音,去河邊找鬼僧家。 笑死,一個(gè)胖子當(dāng)著我的面吹牛八拱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播肌稻,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼爹谭!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起诺凡,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎腹泌,沒想到半個(gè)月后嘶卧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凉袱,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年运沦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片携添。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖烈掠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情缸托,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布俐镐,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏叼风。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一无宿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧孽鸡,春花似錦、人聲如沸彬碱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)溉卓。三九已至皮迟,卻和暖如春桑寨,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背尉尾。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沙咏,地道東北人辨图。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓故河,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親吆豹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容