Spark從入門到入土(四):SparkStreaming集成kafka

一、SparkStreaming概念

SparkStreaming是一個準(zhǔn)實時的數(shù)據(jù)處理框架,支持對實時數(shù)據(jù)流進(jìn)行可擴(kuò)展份汗、高吞吐量、容錯的流處理蝴簇,SparkStreaming可以從kafka杯活、HDFS等中獲取數(shù)據(jù),經(jīng)過SparkStreaming數(shù)據(jù)處理后保存到HDFS熬词、數(shù)據(jù)庫等旁钧。


sparkStreaming

spark streaming接收實時輸入數(shù)據(jù)流,并將數(shù)據(jù)分為多個微批互拾,然后由spark engine進(jìn)行處理歪今,批量生成最終結(jié)果流。


處理流程

二颜矿、基本操作

2.1初始化StreamingContext

Durations指定接收數(shù)據(jù)的延遲時間寄猩,多久觸發(fā)一次job

SparkConf conf = new SparkConf().setMaster("local").setAppName("alarmCount");
JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(10));
2.2基本操作

1:streamingcontext.start() 開始接受數(shù)據(jù)
2:streamingContext.stop() 停止

2.3注意的點(diǎn)

1:上下文啟動后,不能重新設(shè)置或添加新的流式計算
2:一個JVM進(jìn)程中只能有一個StreamingContext 存活

2.4DStream

DStream是離散數(shù)據(jù)流骑疆,是由一系列RDD組成的序列
1:每個InputDStream對應(yīng)一個接收器(文件流不需要接收器)田篇,一個接收器也只接受一個單一的數(shù)據(jù)流,但是SparkStreaming應(yīng)用中可以創(chuàng)建多個輸入流
2:每個接收器占用一個核箍铭,應(yīng)用程序的核數(shù)要大于接收器數(shù)量泊柬,如果小于數(shù)據(jù)將無法全部梳理

三、從kafka中讀取數(shù)據(jù)

通過KafkaUtils從kafka讀取數(shù)據(jù)诈火,讀取數(shù)據(jù)有兩種方式兽赁,createDstream和createDirectStream。

3.1:createDstream:基于Receiver的方式

1: kafka數(shù)據(jù)持續(xù)被運(yùn)行在Spark workers/executors 中的Kafka Receiver接受冷守,這種方式使用的是kafka的高階用戶API
2:接受到的數(shù)據(jù)存儲在Spark workers/executors內(nèi)存以及WAL(Write Ahead Logs), 在數(shù)據(jù)持久化到日志后刀崖,kafka接收器才會更新zookeeper中的offset
3:接受到的數(shù)據(jù)信息及WAL位置信息被可靠存儲,失敗時用于重新讀取數(shù)據(jù)教沾。

createDstream讀取數(shù)流程

3.2:createDirectStream 直接讀取方式

這種方式下需要自行管理offset蒲跨,可以通過checkpoint或者數(shù)據(jù)庫方式管理

1.png

SparkStreaming

public class SparkStreaming {
    private static String CHECKPOINT_DIR = "/Users/dbq/Documents/checkpoint";

    public static void main(String[] args) throws InterruptedException {
        //初始化StreamingContext
        SparkConf conf = new SparkConf().setMaster("local").setAppName("alarmCount");
        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(10));
        jssc.checkpoint(CHECKPOINT_DIR);
        Map<String, Object> kafkaParams = new HashMap<>();
        kafkaParams.put("metadata.broker.list", "172.*.*.6:9092,172.*.*.7:9092,172.*.*.8:9092");
        kafkaParams.put("bootstrap.servers", "172.*.*.6:9092,172.*.*.7:9092,172.*.*.8:9092");
        kafkaParams.put("key.deserializer", StringDeserializer.class);
        kafkaParams.put("value.deserializer", StringDeserializer.class);
        kafkaParams.put("group.id", "alarmGroup");
        kafkaParams.put("auto.offset.reset", "latest");
        kafkaParams.put("enable.auto.commit", true);

        Collection<String> topics = Arrays.asList("alarmTopic");
        JavaInputDStream<ConsumerRecord<String, String>> messages =
                KafkaUtils.createDirectStream(
                        jssc,
                        LocationStrategies.PreferConsistent(),
                        ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams)
                );
        JavaDStream<String> lines = messages.map((Function<ConsumerRecord<String, String>, String>) record -> record.value());

        lines.foreachRDD((VoidFunction<JavaRDD<String>>) record -> {
            List<String> list = record.collect();
            for (int i = 0; i < list.size(); i++) {
                writeToFile(list.get(i));
            }

        });
        lines.print();
        jssc.start();
        jssc.awaitTermination();
        System.out.println("----------------end");
    }

    //將結(jié)果寫入到文件,也可以寫入到MongoDB或者HDFS等
    private synchronized static void writeToFile(String content) {
        String fileName = "/Users/dbq/Documents/result.txt";
        FileWriter writer = null;
        try {
            writer = new FileWriter(fileName, true);
            writer.write(content + " \r\n");
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                if (writer != null) {
                    writer.close();
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

Kafka的集成

生產(chǎn)者配置類
public class KafkaProducerConfig {
    @Value("${spring.kafka.bootstrap-servers}")
    private String broker;

    @Value("${spring.kafka.producer.acks}")
    private String acks;

    @Value("${spring.kafka.producer.retries}")
    private Integer retries;

    @Value("${spring.kafka.producer.batch-size}")
    private Integer batchSize;

    @Value("${spring.kafka.producer.buffer-memory}")
    private long bufferMemory;

    public Map<String, Object> getConfig() {
        Map<String, Object> props = new HashMap<>();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, broker);
        props.put(ProducerConfig.ACKS_CONFIG, acks);
        props.put(ProducerConfig.RETRIES_CONFIG, retries);
        props.put(ProducerConfig.BATCH_SIZE_CONFIG, batchSize);
        props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, bufferMemory);
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
        return props;
    }
}
Kafka生產(chǎn)者
@Component
public class Producer {
    @Autowired
    private KafkaTemplate<String, String> kafkaTemplate;

    public void send(Message message) {
        kafkaTemplate.send("alarmTopic", JSONObject.toJSONString(message));
    }
}
配置kafkaTemplate
@Component
public class PushMessageConfig {

   @Autowired
   private PushProducerListener producerListener;

   @Autowired
   private KafkaProducerConfig producerConfig;

   @Bean
   public KafkaTemplate<String, String> kafkaTemplate() {
       @SuppressWarnings({ "unchecked", "rawtypes" })
       ProducerFactory<String, String> factory = new DefaultKafkaProducerFactory<>(producerConfig.getConfig());

       KafkaTemplate<String, String> kafkaTemplate = new KafkaTemplate<>(factory, true);
       kafkaTemplate.setProducerListener(producerListener);
       kafkaTemplate.setDefaultTopic("alarmTopic");
       return kafkaTemplate;
   }

}
配置生產(chǎn)者監(jiān)聽
@Component
public class PushProducerListener implements ProducerListener<String, String> {


    private Logger logger = LoggerFactory.getLogger(PushProducerListener.class);

    @Override
    public void onSuccess(String topic, Integer partition, String key, String value,
                          RecordMetadata recordMetadata) {
        // 數(shù)據(jù)成功發(fā)送到消息隊列
        System.out.println("發(fā)送成功:" + value);
        logger.info("onSuccess. " + key + " : " + value);
    }

    @Override
    public void onError(String topic, Integer partition, String key, String value,
                        Exception exception) {
        logger.error("onError. " + key + " : " + value);
        logger.error("catching an error when sending data to mq.", exception);
        // 發(fā)送到消息隊列失敗授翻,直接在本地處理
    }

    @Override
    public boolean isInterestedInSuccess() {
        // 發(fā)送成功后回調(diào)onSuccess或悲,false則不回調(diào)
        return true;
    }

}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市堪唐,隨后出現(xiàn)的幾起案子巡语,更是在濱河造成了極大的恐慌,老刑警劉巖淮菠,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件男公,死亡現(xiàn)場離奇詭異,居然都是意外死亡合陵,警方通過查閱死者的電腦和手機(jī)枢赔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門澄阳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人踏拜,你說我怎么就攤上這事碎赢。” “怎么了速梗?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵肮塞,是天一觀的道長。 經(jīng)常有香客問我姻锁,道長枕赵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任位隶,我火速辦了婚禮拷窜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘钓试。我一直安慰自己装黑,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布弓熏。 她就那樣靜靜地躺著恋谭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挽鞠。 梳的紋絲不亂的頭發(fā)上疚颊,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天,我揣著相機(jī)與錄音信认,去河邊找鬼材义。 笑死,一個胖子當(dāng)著我的面吹牛嫁赏,可吹牛的內(nèi)容都是我干的其掂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼潦蝇,長吁一口氣:“原來是場噩夢啊……” “哼款熬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起攘乒,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤贤牛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后则酝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體殉簸,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了般卑。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片武鲁。...
    茶點(diǎn)故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖椭微,靈堂內(nèi)的尸體忽然破棺而出洞坑,到底是詐尸還是另有隱情,我是刑警寧澤蝇率,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站刽沾,受9級特大地震影響本慕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜侧漓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一锅尘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧布蔗,春花似錦藤违、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至泽谨,卻和暖如春璧榄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背吧雹。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工骨杂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人雄卷。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓搓蚪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親丁鹉。 傳聞我的和親對象是個殘疾皇子妒潭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評論 2 355