Spark并行計(jì)算內(nèi)容總結(jié)

（一）并行計(jì)算的簡(jiǎn)介

并行計(jì)算：?簡(jiǎn)單來(lái)講粉铐，并行計(jì)算就是同時(shí)使用多個(gè)計(jì)算資源來(lái)解決一個(gè)計(jì)算問題让蕾，具有以下特點(diǎn)：

一個(gè)問題被分解成為一系列可以并發(fā)執(zhí)行的離散部分睛约；

每個(gè)部分可以進(jìn)一步被分解成為一系列離散指令叫惊；

來(lái)自每個(gè)部分的指令可以在不同的處理器上被同時(shí)執(zhí)行；

需要一個(gè)總體的控制/協(xié)作機(jī)制來(lái)負(fù)責(zé)對(duì)不同部分的執(zhí)行情況進(jìn)行調(diào)度似舵。

并行計(jì)算示意圖

這里的計(jì)算資源可以是分布式的計(jì)算機(jī)晶伦，也可以是多核CPU或多處理器的計(jì)算機(jī)。而計(jì)算的問題需要可以分解成可并發(fā)執(zhí)行的的離散片段啄枕，并且不同離散片段可以在任意時(shí)間被執(zhí)行。因此對(duì)于并行計(jì)算需要關(guān)心兩方面的內(nèi)容：計(jì)算資源的并行組織與.并行程序的設(shè)計(jì)族沃。

（二）計(jì)算資源的并行組織

1.分布式架構(gòu)的結(jié)構(gòu)

以分布式集群為例频祝，并行計(jì)算任務(wù)中，最常用的是主從架構(gòu)方案脆淹，具體根據(jù)功能的不同抽象為兩種角色：

一類負(fù)責(zé)整體的資源調(diào)度常空，存儲(chǔ)地址的管理等，不執(zhí)行具體的任務(wù)盖溺，稱為集群的主節(jié)點(diǎn)漓糙；另一類則只負(fù)責(zé)分配到的任務(wù)的具體執(zhí)行和數(shù)據(jù)的實(shí)際存儲(chǔ)，稱為從節(jié)點(diǎn)烘嘱。主從節(jié)點(diǎn)各司其職昆禽，配合完成并行計(jì)算任務(wù)蝗蛙。下面介紹主從節(jié)點(diǎn)的具體配置。

2.分布式架構(gòu)的配置

（1）網(wǎng)絡(luò)互通醉鳖、SSH免密登錄

對(duì)于分布式集群來(lái)說(shuō)捡硅，首先要保證不同計(jì)算單元可以相互通信，可以是物理的連接也可以是通過網(wǎng)絡(luò)的連接盗棵。配置網(wǎng)絡(luò)保證ping通壮韭，并且為了后期訪問的方便，安裝SSH服務(wù)纹因，相互傳遞公鑰喷屋，保證可以相互免密碼登錄。

（2）配置JDK瞭恰、Scala

Hadoop屯曹，Spark是運(yùn)行在JAVA虛擬機(jī)上面的，所以要對(duì)所有的節(jié)點(diǎn)配置JDK環(huán)境寄疏，Spark為Scala語(yǔ)言原生編寫是牢，并且Scala的函數(shù)式編程更合適進(jìn)行并行計(jì)算，所以安裝Scala陕截。

（3）配置Hadoop

hadoop架構(gòu)圖

分布式計(jì)算必然涉及分布式儲(chǔ)存的問題驳棱，Hadoop的HDFS分布式文件系統(tǒng)，Hbase分布式數(shù)據(jù)庫(kù)农曲，Hive分布式數(shù)據(jù)倉(cāng)庫(kù)等組件是一個(gè)比較好的解決方案社搅。安裝配置Hadoop。

HDFS分布式文件系統(tǒng)和MapReduce計(jì)算框架為Hadoop的兩個(gè)個(gè)核心設(shè)計(jì)乳规。

HDFS的架構(gòu)圖如下形葬，采用主從架構(gòu)（master/slave）。一個(gè)典型的HDFS集群包含一個(gè)NameNode節(jié)點(diǎn)和多個(gè)DataNode節(jié)點(diǎn)暮的。NameNode節(jié)點(diǎn)負(fù)責(zé)整個(gè)HDFS文件系統(tǒng)中的文件的元數(shù)據(jù)保管和管理笙以，集群中通常只有一臺(tái)機(jī)器上運(yùn)行NameNode實(shí)例，DataNode節(jié)點(diǎn)保存文件中的數(shù)據(jù)冻辩，集群中的機(jī)器分別運(yùn)行一個(gè)DataNode實(shí)例猖腕。在HDFS中，NameNode節(jié)點(diǎn)被稱為名稱節(jié)點(diǎn)恨闪，DataNode節(jié)點(diǎn)被稱為數(shù)據(jù)節(jié)點(diǎn)倘感。DataNode節(jié)點(diǎn)通過心跳機(jī)制與NameNode節(jié)點(diǎn)進(jìn)行定時(shí)的通信。

HDFS架構(gòu)圖

（4）配置Spark

最初采用Hadoop自有MapReduce計(jì)算框架可以解決大多數(shù)問題咙咽，但相比Spark計(jì)算框架就略遜一籌老玛。Spark框架相比MR來(lái)說(shuō)更加的高效，有如下幾個(gè)原因：

1.相對(duì)于Hadoop的MR計(jì)算，Spark支持DAG蜡豹，能緩存中間數(shù)據(jù)麸粮，減少數(shù)據(jù)落盤數(shù)，Spark基于內(nèi)存的計(jì)算更高效

2.可以支持使用多線程啟動(dòng)task余素，更輕量豹休，啟動(dòng)速度快；

3.API高度抽象桨吊，開發(fā)效率高威根，功能不局限于MapReduce的傳統(tǒng)模式，可以根據(jù)實(shí)際的需求設(shè)計(jì)程序视乐。

Spark+HDFS架構(gòu)

但Spark沒有自帶的文件系統(tǒng)洛搀，所以使用Hadoop的HDFS配合進(jìn)行相關(guān)計(jì)算，具體結(jié)構(gòu)圖如上佑淀。

在分布式環(huán)境中安裝Spark留美，并配置相關(guān)文件。

本節(jié)具體配置參考：https://www.cnblogs.com/NextNight/p/6703362.html

（三）并行程序的選擇

至此分布式計(jì)算的集群搭建好伸刃，具備了分布式計(jì)算的基本條件谎砾。通過對(duì)Spark進(jìn)一步剖析，理解分布式程序的開發(fā)捧颅。

RDD的使用

Spark的核心為RDD（Resilient Distributed Datasets）景图，即彈性分布式數(shù)據(jù)集。

它是對(duì)數(shù)據(jù)的高度抽象概念碉哑，彈性可理解為數(shù)據(jù)存儲(chǔ)彈性挚币，可內(nèi)存，可磁盤; 分布式可理解為數(shù)據(jù)分布在不同節(jié)點(diǎn)扣典。RDD是分布式數(shù)據(jù)的邏輯抽象妆毕，物理數(shù)據(jù)存儲(chǔ)在不同的節(jié)點(diǎn)上，但對(duì)用戶透明贮尖，用戶不需要知道數(shù)據(jù)實(shí)際存在哪臺(tái)機(jī)器笛粘。

RDD包括以下部分：

? ??只讀分區(qū)集合：這保證了RDD的一致性，在計(jì)算過程中更安全可靠湿硝，此外RDD可能包含多個(gè)分區(qū)闰蛔，數(shù)據(jù)分布在不同分區(qū)中，這些分區(qū)可能在不同的機(jī)器上图柏。對(duì)數(shù)據(jù)的計(jì)算函數(shù)：RDD包含了對(duì)所表示數(shù)據(jù)的計(jì)算函數(shù)，也就是得到這個(gè)RDD所要經(jīng)過的計(jì)算任连。計(jì)算數(shù)據(jù)的位置：對(duì)用戶而言不需要知道數(shù)據(jù)在哪里蚤吹，這些信息隱含在RDD的結(jié)構(gòu)中。分區(qū)器：對(duì)數(shù)據(jù)分區(qū)依賴的分區(qū)算法，如hash分區(qū)器依賴的RDD信息：該RDD可能依賴的父RDD信息裁着，用于失敗重算或計(jì)算的DAG劃分繁涂。

RDD的計(jì)算與依賴

RDD計(jì)算

RDD的計(jì)算分為transformation和action兩類。

transformation有 flatMap二驰、map扔罪、union、reduceByKey等桶雀。

action有count矿酵、collect、saveAsTextFile等表示輸出的操作矗积。

RDD的計(jì)算是lazy的全肮，transformation算子不會(huì)引發(fā)計(jì)算，只是邏輯操作action算子才會(huì)引發(fā)實(shí)際的計(jì)算棘捣。

RDD依賴

寬依賴窄依賴

RDD的依賴分為寬依賴和窄依賴兩種辜腺，如果依賴過程含有一對(duì)多則為寬依賴，否則為窄依賴乍恐。

Spark的計(jì)算流程

Spark的計(jì)算核心為RDD评疗，理解了RDD才能理解其相關(guān)計(jì)算流程。

上圖是一個(gè)Spark的wordcount例子茵烈，根據(jù)上述stage劃分原則百匆，這個(gè)job劃分為2個(gè)stage，有三行瞧毙，分別是數(shù)據(jù)讀取胧华、計(jì)算和存儲(chǔ)過程。

僅看代碼宙彪，用戶根本體會(huì)不到數(shù)據(jù)在背后是并行計(jì)算矩动。從圖中能看出數(shù)據(jù)分布在不同分區(qū)（也可以理解不同機(jī)器上），數(shù)據(jù)經(jīng)過flapMap释漆、map和reduceByKey算子在不同RDD的分區(qū)中流轉(zhuǎn)悲没。（這些算子就是上面所說(shuō)對(duì)RDD進(jìn)行計(jì)算的函數(shù)）

Spark實(shí)現(xiàn)流程

更抽象的層次來(lái)看：Spark的運(yùn)行架構(gòu)由Driver（可理解為master）和Executor（可理解為worker或slave)組成，Driver負(fù)責(zé)把用戶代碼進(jìn)行DAG切分男图，劃分為不同的Stage示姿，然后把每個(gè)Stage對(duì)應(yīng)的task調(diào)度提交到Executor進(jìn)行計(jì)算，這樣Executor就并行執(zhí)行同一個(gè)Stage的task逊笆。

層次劃分

Application就是用戶submit提交的整體代碼栈戳，代碼中又有很多action操作，action算子把Application劃分為多個(gè)job难裆，job根據(jù)寬依賴劃分為不同Stage子檀，Stage內(nèi)劃分為許多（數(shù)量由分區(qū)決定镊掖，一個(gè)分區(qū)的數(shù)據(jù)由一個(gè)task計(jì)算）功能相同的task，然后這些task提交給Executor進(jìn)行計(jì)算執(zhí)行褂痰，把結(jié)果返回給Driver匯總或存儲(chǔ)亩进。

這體現(xiàn)了 Driver端總規(guī)劃–Executor端分計(jì)算–結(jié)果最后匯總回Driver 的思想，也就是分布式并行計(jì)算的思想缩歪。

（四）并行計(jì)算實(shí)例

采用Spark計(jì)算框架归薛，對(duì)矢量點(diǎn)進(jìn)行高斯核密度估計(jì)。

單機(jī)環(huán)境測(cè)試匪蝙，采用不同的線程數(shù)對(duì)程序進(jìn)行計(jì)算主籍，模擬并行計(jì)算的結(jié)果比較計(jì)算結(jié)果。使用Geotrellis.Spark框架下的瓦片處理技術(shù)將點(diǎn)分配到不同的瓦片Tile骗污，并將其導(dǎo)入RDDtile中崇猫，進(jìn)行并行計(jì)算。

初始化Sparkconf設(shè)置setMaster參數(shù)為L(zhǎng)ocal[線程數(shù)]進(jìn)行試驗(yàn)需忿，計(jì)算其核心步驟的時(shí)間诅炉，結(jié)果如下：

線程數(shù)????瓦片切割????使用時(shí)間（ms）

1????????????7*4????????????64455

2????????????7*4????????????46455

4????????????7*4????????????35583

基本可以說(shuō)明在數(shù)據(jù)量較大的情況下，并行計(jì)算的效率要較高一些屋厘。但是線程數(shù)的增加使得并行計(jì)算的通行網(wǎng)絡(luò)成本與時(shí)間網(wǎng)絡(luò)成本增加涕烧，所以不同的任務(wù)有最高值，需要配置服務(wù)器汗洒，使用更多數(shù)據(jù)通過更多的線程數(shù)來(lái)進(jìn)行進(jìn)一步計(jì)算得到议纯。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市溢谤，隨后出現(xiàn)的幾起案子瞻凤，更是在濱河造成了極大的恐慌，老刑警劉巖世杀，帶你破解...
沈念sama閱讀 222,104評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件阀参，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡瞻坝，警方通過查閱死者的電腦和手機(jī)蛛壳，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,816評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)所刀，“玉大人衙荐，你說(shuō)我怎么就攤上這事「〈矗” “怎么了忧吟？”我有些...
開封第一講書人閱讀 168,697評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)斩披。經(jīng)常有香客問我溜族，道長(zhǎng)胸嘴，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,836評(píng)論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任斩祭，我火速辦了婚禮，結(jié)果婚禮上乡话，老公的妹妹穿的比我還像新娘摧玫。我一直安慰自己，他們只是感情好绑青，可當(dāng)我...
茶點(diǎn)故事閱讀 68,851評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布诬像。她就那樣靜靜地躺著，像睡著了一般闸婴。火紅的嫁衣襯著肌膚如雪坏挠。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,441評(píng)論 1贊 310
城市分裂傳說(shuō)
那天邪乍，我揣著相機(jī)與錄音降狠，去河邊找鬼。笑死庇楞，一個(gè)胖子當(dāng)著我的面吹牛榜配，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播吕晌，決...
沈念sama閱讀 40,992評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蛋褥，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了睛驳？” 一聲冷哼從身側(cè)響起烙心，我...
開封第一講書人閱讀 39,899評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎乏沸，沒想到半個(gè)月后淫茵，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,457評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡屎蜓，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,529評(píng)論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年痘昌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片炬转。...
茶點(diǎn)故事閱讀 40,664評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡辆苔，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出扼劈，到底是詐尸還是另有隱情驻啤，我是刑警寧澤，帶...
沈念sama閱讀 36,346評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布荐吵，位于F島的核電站骑冗，受9級(jí)特大地震影響赊瞬，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贼涩，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,025評(píng)論 3贊 334
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一巧涧、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧遥倦，春花似錦谤绳、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,511評(píng)論 0贊 24
一樁弒父案缩筛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至堡称，卻和暖如春瞎抛，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背却紧。一陣腳步聲響...
開封第一講書人閱讀 33,611評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工桐臊，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人啄寡。一個(gè)月前我還...
沈念sama閱讀 49,081評(píng)論 3贊 377
代替公主和親
正文我出身青樓豪硅，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親挺物。傳聞我的和親對(duì)象是個(gè)殘疾皇子懒浮，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,675評(píng)論 2贊 359