Spark自定義累加器的實(shí)現(xiàn)

Spark自定義累加器的實(shí)現(xiàn)

Java版本:



package com.luoxuehuan.sparkproject.spark;
import org.apache.spark.AccumulatorParam;


/**
 * 
 * @author lxh
 * implements AccumulatorParam<String>
 * String格式 進(jìn)行分布式計(jì)算
 * 也可以用自己的model 臼寄,但必須是可以序列化的众雷!
 * 然后基于這種特殊的數(shù)據(jù)格式冒签,可以實(shí)現(xiàn)自己復(fù)雜的分布式計(jì)算邏輯
 * 
 * 各個(gè)task 分布式在運(yùn)行债蜜,可以根據(jù)你需求挠锥,task給Accumulator傳入不同的值阳掐。
 * 
 * 根據(jù)不同的值洽腺,去做復(fù)雜的邏輯。
 */
public class SessionAggrAccumulator implements AccumulatorParam<String> {

    private static final long serialVersionUID = 1L;

    /**
     * Zoro方法淡诗,其實(shí)主要用于數(shù)據(jù)的初始化
     * 那么骇塘,我們這里,就返回一個(gè)值韩容,就是初始化中款违,所有范圍區(qū)間的數(shù)量,多少0
     * 
     * 各個(gè)范圍區(qū)間的統(tǒng)計(jì)數(shù)量的拼接群凶,還是采用|分割插爹。
     */
    @Override
    public String zero(String v) {
        return Constants.SESSION_COUNT + "=0|"
                + Constants.TIME_PERIOD_1s_3s + "=0|"
                + Constants.TIME_PERIOD_4s_6s + "=0|"
                + Constants.TIME_PERIOD_7s_9s + "=0|"
                + Constants.TIME_PERIOD_10s_30s + "=0|"
                + Constants.TIME_PERIOD_30s_60s + "=0|"
                + Constants.STEP_PERIOD_60 + "=0";
    }
    /**
     * 這兩個(gè)方法可以理解為一樣的。
     * 這兩個(gè)方法请梢,其實(shí)主要就是實(shí)現(xiàn)赠尾,v1可能就是我們初始化的那個(gè)連接串
     * v2,就是我們?cè)诒闅vsession的時(shí)候毅弧,判斷出某個(gè)session對(duì)應(yīng)的區(qū)間气嫁,然后會(huì)用Constants.TIME_PERIOD_1s_3s
     * 所以,我們够坐,要做的事情就是
     * 在v1中寸宵,找到v2對(duì)應(yīng)的value,累加1元咙,然后再更新回連接串里面去
     */
    @Override
    public String addInPlace(String v1, String v2) {
        return add(v1, v2);
    }

    @Override
    public String addAccumulator(String v1, String v2) {
        return add(v1, v2);
    }

    /**
     * session統(tǒng)計(jì)計(jì)算邏輯梯影。
     * @param v1 連接串
     * @param v2 范圍區(qū)間
     * @return 更新以后的連接串
     */
    private String add(String v1,String v2){
        //校驗(yàn):v1位空的話,直接返回v2
        if(StringUtils.isEmpty(v1)) {
            return v2;
        }
        // 使用StringUtils工具類蛾坯,從v1中光酣,提取v2對(duì)應(yīng)的值疏遏,并累加1
        String oldValue = StringUtils.getFieldFromConcatString(v1, "\\|", v2);
        if(oldValue != null) {
            // 將范圍區(qū)間原有的值脉课,累加1
            int newValue = Integer.valueOf(oldValue) + 1;
            // 使用StringUtils工具類,將v1中财异,v2對(duì)應(yīng)的值倘零,設(shè)置成新的累加后的值
            return StringUtils.setFieldInConcatString(v1, "\\|", v2, String.valueOf(newValue));  
        }
        return v1;
    }
}

Scala版本

package com.Streaming

import java.util

import org.apache.spark.streaming.{Duration, StreamingContext}
import org.apache.spark.{Accumulable, Accumulator, SparkContext, SparkConf}
import org.apache.spark.broadcast.Broadcast

/**
  * Created by lxh on 2016/6/30.
  */
object BroadcastAccumulatorStreaming {

  /**
    * 聲明一個(gè)廣播和累加器!
    */
  private var broadcastList:Broadcast[List[String]]  = _
  private var accumulator:Accumulator[Int] = _

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setMaster("local[4]").setAppName("broadcasttest")
    val sc = new SparkContext(sparkConf)

    /**
      * duration是ms
      */
    val ssc = new StreamingContext(sc,Duration(2000))
   // broadcastList = ssc.sparkContext.broadcast(util.Arrays.asList("Hadoop","Spark"))
    broadcastList = ssc.sparkContext.broadcast(List("Hadoop","Spark"))
    accumulator= ssc.sparkContext.accumulator(0,"broadcasttest")

    /**
      * 獲取數(shù)據(jù)戳寸!
      */
    val lines = ssc.socketTextStream("localhost",9999)

    /**
      * 1.flatmap把行分割成詞呈驶。
      * 2.map把詞變成tuple(word,1)
      * 3.reducebykey累加value
      * (4.sortBykey排名)
      * 4.進(jìn)行過(guò)濾。 value是否在累加器中疫鹊。
      * 5.打印顯示袖瞻。
      */
    val words = lines.flatMap(line => line.split(" "))

    val wordpair = words.map(word => (word,1))

    wordpair.filter(record => {broadcastList.value.contains(record._1)})


    val pair = wordpair.reduceByKey(_+_)

    /**
      * 這個(gè)pair 是PairDStream<String, Integer>
      * 查看這個(gè)id是否在黑名單中司致,如果是的話,累加器就+1
      */
/*    pair.foreachRDD(rdd => {
      rdd.filter(record => {

        if (broadcastList.value.contains(record._1)) {
          accumulator.add(1)
          return true
        } else {
          return false
        }

      })

    })*/

    val filtedpair = pair.filter(record => {
        if (broadcastList.value.contains(record._1)) {
          accumulator.add(record._2)
          true
        } else {
          false
        }

     }).print

    println("累加器的值"+accumulator.value)

   // pair.filter(record => {broadcastList.value.contains(record._1)})

   /* val keypair = pair.map(pair => (pair._2,pair._1))*/

    /**
      * 如果DStream自己沒(méi)有某個(gè)算子操作嗅蔬。就通過(guò)轉(zhuǎn)化transform蜓席!
      */
   /* keypair.transform(rdd => {
      rdd.sortByKey(false)//TODO
    })*/
    pair.print()
    ssc.start()
    ssc.awaitTermination()

  }

}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末呀枢,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子庭再,更是在濱河造成了極大的恐慌,老刑警劉巖牺堰,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拄轻,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡伟葫,警方通過(guò)查閱死者的電腦和手機(jī)恨搓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)筏养,“玉大人奶卓,你說(shuō)我怎么就攤上這事『承” “怎么了夺姑?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)掌猛。 經(jīng)常有香客問(wèn)我盏浙,道長(zhǎng),這世上最難降的妖魔是什么荔茬? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任废膘,我火速辦了婚禮,結(jié)果婚禮上慕蔚,老公的妹妹穿的比我還像新娘丐黄。我一直安慰自己,他們只是感情好孔飒,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布灌闺。 她就那樣靜靜地躺著,像睡著了一般坏瞄。 火紅的嫁衣襯著肌膚如雪桂对。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天鸠匀,我揣著相機(jī)與錄音蕉斜,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宅此,可吹牛的內(nèi)容都是我干的机错。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼父腕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼毡熏!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起侣诵,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤痢法,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后杜顺,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體财搁,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年躬络,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了尖奔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡穷当,死狀恐怖提茁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情馁菜,我是刑警寧澤茴扁,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站汪疮,受9級(jí)特大地震影響峭火,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜智嚷,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一卖丸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧盏道,春花似錦稍浆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至泉坐,卻和暖如春为鳄,著一層夾襖步出監(jiān)牢的瞬間裳仆,已是汗流浹背腕让。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人纯丸。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓偏形,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親觉鼻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子俊扭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容