3 spark streaming運(yùn)行機(jī)制與架構(gòu)

  • Spark Streaming Job架構(gòu)與運(yùn)行機(jī)制
  • Spark Streaming 容錯(cuò)架構(gòu)與運(yùn)行機(jī)制

Spark Streaming是一個(gè)流處理架構(gòu)儿捧,隨著時(shí)間的推移,根據(jù)時(shí)間分片不斷的產(chǎn)生Job戳鹅,一直不停的運(yùn)行。從Job的產(chǎn)生上看昏兆,根據(jù)沒有流處理枫虏,只是看起來像流一樣而已。
下面以一個(gè)例子說明爬虱,代碼如下

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用Scala開發(fā)集群運(yùn)行的Spark 在線黑名單過濾程序
  * 背景描述:在廣告點(diǎn)擊計(jì)費(fèi)系統(tǒng)中隶债,我們?cè)诰€過濾掉黑名單的點(diǎn)擊,進(jìn)而保護(hù)廣告商的利益跑筝,只進(jìn)行有效的廣告點(diǎn)擊計(jì)費(fèi)
  *     或者在防刷評(píng)分(或者流量)系統(tǒng)死讹,過濾掉無效的投票或者評(píng)分或者流量;
  * 實(shí)現(xiàn)技術(shù):使用transform Api直接基于RDD編程曲梗,進(jìn)行join操作
  */
object OnlineForeachRDD2DB {
  def main(args: Array[String]){
    /**
      * 創(chuàng)建Spark的配置對(duì)象SparkConf赞警,設(shè)置Spark程序的運(yùn)行時(shí)的配置信息,
      * 例如說通過setMaster來設(shè)置程序要鏈接的Spark集群的Master的URL,如果設(shè)置
      * 為local虏两,則代表Spark程序在本地運(yùn)行愧旦,特別適合于機(jī)器配置條件非常差(例如
      * 只有1G的內(nèi)存)的初學(xué)者       *
      */
    val conf = new SparkConf() //創(chuàng)建SparkConf對(duì)象
    conf.setAppName("OnlineForeachRDD") //設(shè)置應(yīng)用程序的名稱,在程序運(yùn)行的監(jiān)控界面可以看到名稱
    //conf.setMaster("spark://Master:7077") //此時(shí)碘举,程序在Spark集群
    conf.setMaster("local[6]")
    //設(shè)置batchDuration時(shí)間間隔來控制Job生成的頻率并且創(chuàng)建Spark Streaming執(zhí)行的入口
    val ssc = new StreamingContext(conf, Seconds(5))
    val lines = ssc.socketTextStream("Master", 9999)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
    wordCounts.foreachRDD { rdd =>
      rdd.foreachPartition { partitionOfRecords => {
        val connection = ConnectionPool.getConnection()
        partitionOfRecords.foreach(record => {
          val sql = "insert into streaming_itemcount(item,count) values('" + record._1 + "'," + record._2 + ")"
          val stmt = connection.createStatement();
          stmt.executeUpdate(sql);

        })
        ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
      }
      }
    }
    ssc.start()
    ssc.awaitTermination()
  }
}
  1. 通過案例代碼透視Job的執(zhí)行過程忘瓦,解析Spark Streaming運(yùn)行機(jī)制搁廓,代碼運(yùn)行剖析如下:

    1. 首先通過StreamingContext調(diào)用start方法引颈,其內(nèi)部再啟動(dòng)JobScheduler的Start方法耕皮,進(jìn)行消息循環(huán)

    2. 在JobScheduler的start內(nèi)部會(huì)構(gòu)造JobGenerator和ReceiverTacker

    3. 然后調(diào)用JobGenerator和ReceiverTacker的start方法執(zhí)行以下操作

      1. JobGenerator啟動(dòng)后會(huì)不斷的根據(jù)batchDuration生成一個(gè)個(gè)的Job
      2. ReceiverTracker啟動(dòng)后首先在Spark Cluster中啟動(dòng)Receiver(其實(shí)是在Executor中先啟動(dòng)ReceiverSupervisor)
    4. 在Receiver收到數(shù)據(jù)后會(huì)通過ReceiverSupervisor存儲(chǔ)到Executor

    5. 同時(shí)把數(shù)據(jù)的Metadata信息發(fā)送給Driver中的ReceiverTracker,在ReceiverTracker內(nèi)部會(huì)通過ReceivedBlockTracker來管理接受到的元數(shù)據(jù)信息

    6. 每個(gè)BatchInterval會(huì)產(chǎn)生一個(gè)具體的Job蝙场,其實(shí)這里的Job不是Spark Core中所指的Job凌停,它只是基于DStream Graph而生成的RDD的DAG而已

    7. 要想運(yùn)行Job需要提交給JobScheduler,在JobScheduler中通過線程池的方式找到一個(gè)單獨(dú)的線程來提交Job到集群運(yùn)行售滤,在線程中基于RDD的Action觸發(fā)作業(yè)的運(yùn)行

    8. 由于流處理過程中作業(yè)不斷生成罚拟,為了提升效率,可以使用線程池完箩。同時(shí)有可能設(shè)置了Job的FAIR公平調(diào)度的方式赐俗,也需要多線程的支持

  2. 從容錯(cuò)架構(gòu)的角度透視Spark Streaming 運(yùn)行機(jī)制
    Spark Streaming是基于DStream的容錯(cuò)機(jī)制,DStream是隨著時(shí)間流逝不斷的產(chǎn)生RDD弊知,也就是說DStream是在固定的時(shí)間上操作RDD阻逮,容錯(cuò)會(huì)劃分到每一次所形成的RDD。Spark Streaming的容錯(cuò)包括 Executor與Driver兩方面的容錯(cuò)機(jī)制

    1. Executor 容錯(cuò):

      1. 數(shù)據(jù)接收:分布式方式秩彤、wal方式叔扼,先寫日志再保存數(shù)據(jù)到Executor
      2. 任務(wù)執(zhí)行安全性 Job基于RDD容錯(cuò)
    2. Driver容錯(cuò) : checkpoint
        基于RDD的特性,它的容錯(cuò)機(jī)制主要就是兩種:

      1. 基于checkpoint漫雷,在stage之間是寬依賴瓜富,產(chǎn)生了shuffle操作,lineage鏈條過于復(fù)雜和冗長(zhǎng)降盹,這時(shí)候就需要做checkpoint与柑。
      2. 基于lineage(血統(tǒng))的容錯(cuò):
              一般而言,spark選擇血統(tǒng)容錯(cuò)澎现,因?yàn)閷?duì)于大規(guī)模的數(shù)據(jù)集仅胞,做檢查點(diǎn)的成本很高〗1瑁考慮到RDD的依賴關(guān)系干旧,每個(gè)stage內(nèi)部都是窄依賴,此時(shí)一般基于lineage容錯(cuò)妹蔽,方便高效椎眯。

總結(jié): stage內(nèi)部做lineage,stage之間做checkpoint胳岂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末编整,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子乳丰,更是在濱河造成了極大的恐慌掌测,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件产园,死亡現(xiàn)場(chǎng)離奇詭異汞斧,居然都是意外死亡夜郁,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門粘勒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來竞端,“玉大人,你說我怎么就攤上這事庙睡∈赂唬” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵乘陪,是天一觀的道長(zhǎng)统台。 經(jīng)常有香客問我,道長(zhǎng)啡邑,這世上最難降的妖魔是什么饺谬? 我笑而不...
    開封第一講書人閱讀 55,273評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮谣拣,結(jié)果婚禮上募寨,老公的妹妹穿的比我還像新娘。我一直安慰自己森缠,他們只是感情好拔鹰,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評(píng)論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著贵涵,像睡著了一般列肢。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宾茂,一...
    開封第一講書人閱讀 49,046評(píng)論 1 285
  • 那天瓷马,我揣著相機(jī)與錄音,去河邊找鬼跨晴。 笑死欧聘,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的端盆。 我是一名探鬼主播怀骤,決...
    沈念sama閱讀 38,351評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼焕妙!你這毒婦竟也來了蒋伦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,988評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤焚鹊,失蹤者是張志新(化名)和其女友劉穎痕届,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡研叫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評(píng)論 2 324
  • 正文 我和宋清朗相戀三年势决,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蓝撇。...
    茶點(diǎn)故事閱讀 38,064評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖陈莽,靈堂內(nèi)的尸體忽然破棺而出渤昌,到底是詐尸還是另有隱情,我是刑警寧澤走搁,帶...
    沈念sama閱讀 33,712評(píng)論 4 323
  • 正文 年R本政府宣布独柑,位于F島的核電站,受9級(jí)特大地震影響私植,放射性物質(zhì)發(fā)生泄漏忌栅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評(píng)論 3 307
  • 文/蒙蒙 一曲稼、第九天 我趴在偏房一處隱蔽的房頂上張望索绪。 院中可真熱鬧,春花似錦贫悄、人聲如沸瑞驱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽唤反。三九已至,卻和暖如春鸭津,著一層夾襖步出監(jiān)牢的瞬間彤侍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工逆趋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盏阶,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,511評(píng)論 2 354
  • 正文 我出身青樓闻书,卻偏偏與公主長(zhǎng)得像般哼,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子惠窄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容