基于Kafka+SparkStreaming+HBase實(shí)時(shí)點(diǎn)擊流案例

背景

Kafka實(shí)時(shí)記錄從數(shù)據(jù)采集工具Flume或業(yè)務(wù)系統(tǒng)實(shí)時(shí)接口收集數(shù)據(jù)您宪,并作為消息緩沖組件為上游實(shí)時(shí)計(jì)算框架提供可靠數(shù)據(jù)支撐洪灯,Spark 1.3版本后支持兩種整合Kafka機(jī)制(Receiver-based Approach 和 Direct Approach)齐佳,具體細(xì)節(jié)請參考文章最后官方文檔鏈接,數(shù)據(jù)存儲使用HBase

實(shí)現(xiàn)思路

實(shí)現(xiàn)Kafka消息生產(chǎn)者模擬器

Spark-Streaming采用Direct Approach方式實(shí)時(shí)獲取Kafka中數(shù)據(jù)

Spark-Streaming對數(shù)據(jù)進(jìn)行業(yè)務(wù)計(jì)算后數(shù)據(jù)存儲到HBase

本地虛擬機(jī)集群環(huán)境配置

由于筆者機(jī)器性能有限掘鄙,hadoop/zookeeper/kafka集群都搭建在一起主機(jī)名分別為hadoop1,hadoop2,hadoop3; hbase為單節(jié)點(diǎn) 在hadoop1

缺點(diǎn)及不足

由于筆者技術(shù)有限掌栅,代碼設(shè)計(jì)上有部分缺陷,比如spark-streaming計(jì)算后數(shù)據(jù)保存hbase邏輯性能很低瀑梗,希望大家多提意見以便小編及時(shí)更正

代碼實(shí)現(xiàn)

Kafka消息模擬器

packageclickstreamimportjava.util.{Properties,Random,UUID}importkafka.producer.{KeyedMessage,Producer,ProducerConfig}importorg.codehaus.jettison.json.JSONObject/**? *

Created by 郭飛 on 2016/5/31.

*/objectKafkaMessageGenerator{privatevalrandom =newRandom()privatevarpointer =-1privatevalos_type =Array("Android","IPhone OS","None","Windows Phone")defclick() :Double= {? ? random.nextInt(10)? }defgetOsType() :String= {? ? pointer = pointer +1if(pointer >= os_type.length) {? ? ? pointer =0os_type(pointer)? ? }else{? ? ? os_type(pointer)? ? }? }defmain(args:Array[String]):Unit= {valtopic ="user_events"http://本地虛擬機(jī)ZK地址valbrokers ="hadoop1:9092,hadoop2:9092,hadoop3:9092"valprops =newProperties()? ? props.put("metadata.broker.list", brokers)? ? props.put("serializer.class","kafka.serializer.StringEncoder")valkafkaConfig =newProducerConfig(props)valproducer =newProducer[String,String](kafkaConfig)while(true) {// prepare event datavalevent =newJSONObject()? ? ? event? ? ? ? .put("uid",UUID.randomUUID())//隨機(jī)生成用戶id.put("event_time",System.currentTimeMillis.toString)//記錄時(shí)間發(fā)生時(shí)間.put("os_type", getOsType)//設(shè)備類型.put("click_count", click)//點(diǎn)擊次數(shù)// produce event messageproducer.send(newKeyedMessage[String,String](topic, event.toString))? ? ? println("Message sent: "+ event)Thread.sleep(200)? ? }? }}

Spark-Streaming主類

packageclickstreamimportkafka.serializer.StringDecoderimportnet.sf.json.JSONObjectimportorg.apache.hadoop.hbase.client.{HTable,Put}importorg.apache.hadoop.hbase.util.Bytesimportorg.apache.hadoop.hbase.{HBaseConfiguration,TableName}importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.kafka.KafkaUtilsimportorg.apache.spark.streaming.{Seconds,StreamingContext}/**

* Created by 郭飛 on 2016/5/31.

*/objectPageViewStream{defmain(args:Array[String]):Unit= {varmasterUrl ="local[2]"if(args.length >0) {? ? ? masterUrl = args(0)? ? }// Create a StreamingContext with the given master URLvalconf =newSparkConf().setMaster(masterUrl).setAppName("PageViewStream")valssc =newStreamingContext(conf,Seconds(5))// Kafka configurationsvaltopics =Set("PageViewStream")//本地虛擬機(jī)ZK地址valbrokers ="hadoop1:9092,hadoop2:9092,hadoop3:9092"valkafkaParams =Map[String,String]("metadata.broker.list"-> brokers,"serializer.class"->"kafka.serializer.StringEncoder")// Create a direct streamvalkafkaStream =KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc, kafkaParams, topics)valevents = kafkaStream.flatMap(line => {valdata =JSONObject.fromObject(line._2)Some(data)? ? })// Compute user click timesvaluserClicks = events.map(x => (x.getString("uid"), x.getInt("click_count"))).reduceByKey(_ + _)? ? userClicks.foreachRDD(rdd => {? ? ? rdd.foreachPartition(partitionOfRecords => {? ? ? ? partitionOfRecords.foreach(pair => {//Hbase配置valtableName ="PageViewStream"valhbaseConf =HBaseConfiguration.create()? ? ? ? ? hbaseConf.set("hbase.zookeeper.quorum","hadoop1:9092")? ? ? ? ? hbaseConf.set("hbase.zookeeper.property.clientPort","2181")? ? ? ? ? hbaseConf.set("hbase.defaults.for.version.skip","true")//用戶IDvaluid = pair._1//點(diǎn)擊次數(shù)valclick = pair._2//組裝數(shù)據(jù)valput =newPut(Bytes.toBytes(uid))? ? ? ? ? put.add("Stat".getBytes,"ClickStat".getBytes,Bytes.toBytes(click))valStatTable=newHTable(hbaseConf,TableName.valueOf(tableName))StatTable.setAutoFlush(false,false)//寫入數(shù)據(jù)緩存StatTable.setWriteBufferSize(3*1024*1024)StatTable.put(put)//提交StatTable.flushCommits()? ? ? ? })? ? ? })? ? })? ? ssc.start()? ? ssc.awaitTermination()? }}

Maven POM文件

4.0.0com.guofei.sparkRiskControl1.0-SNAPSHOTjarRiskControlhttp://maven.apache.orgUTF-8org.apache.sparkspark-core_2.101.3.0org.apache.sparkspark-streaming_2.101.3.0org.apache.sparkspark-streaming-kafka_2.101.3.0org.apache.hbasehbase0.96.2-hadoop2pomorg.apache.hbasehbase-server0.96.2-hadoop2org.apache.hbasehbase-client0.96.2-hadoop2org.apache.hbasehbase-common0.96.2-hadoop2commons-iocommons-io1.3.2commons-loggingcommons-logging1.1.3log4jlog4j1.2.17com.google.protobufprotobuf-java2.5.0io.nettynetty3.6.6.Finalorg.apache.hbasehbase-protocol0.96.2-hadoop2org.apache.zookeeperzookeeper3.4.5org.cloudera.htracehtrace-core2.01org.codehaus.jacksonjackson-mapper-asl1.9.13org.codehaus.jacksonjackson-core-asl1.9.13org.codehaus.jacksonjackson-jaxrs1.9.13org.codehaus.jacksonjackson-xc1.9.13org.slf4jslf4j-api1.6.4org.slf4jslf4j-log4j121.6.4org.apache.hadoophadoop-client2.6.4commons-configurationcommons-configuration1.6org.apache.hadoophadoop-auth2.6.4org.apache.hadoophadoop-common2.6.4net.sf.json-libjson-lib2.4jdk15org.codehaus.jettisonjettison1.1redis.clientsjedis2.5.2org.apache.commonscommons-pool22.2src/main/scalasrc/test/scalanet.alchim31.mavenscala-maven-plugin3.2.2compiletestCompile-make:transitive-dependencyfile${project.build.directory}/.scala_dependenciesorg.apache.maven.pluginsmaven-shade-plugin2.4.3packageshade*:*META-INF/*.SFMETA-INF/*.DSAMETA-INF/*.RSA

FAQ

Maven導(dǎo)入json-lib報(bào)錯(cuò)

Failure to find net.sf.json-lib:json-lib:jar:2.3 in

http://repo.maven.apache.org/maven2was cached in the local

repository

解決:

http://stackoverflow.com/questions/4173214/maven-missing-net-sf-json-lib

net.sf.json-lib

json-lib

2.4

jdk15

執(zhí)行Spark-Streaming程序報(bào)錯(cuò)

org.apache.spark.SparkException: Task not serializable

userClicks.foreachRDD(rdd=>{ rdd.foreachPartition(partitionOfRecords=>{ partitionOfRecords.foreach(這里面的代碼中所包含的對象必須是序列化的這里面的代碼中所包含的對象必須是序列化的這里面的代碼中所包含的對象必須是序列化的}) }) })

執(zhí)行Maven打包報(bào)錯(cuò)烹笔,找不到依賴的jar包

error:not found: object kafka

ERROR import kafka.javaapi.producer.Producer

解決:win10本地系統(tǒng) 用戶/郭飛/.m2/ 目錄含有中文

參考文檔

spark-streaming官方文檔

http://spark.apache.org/docs/latest/streaming-programming-guide.html

spark-streaming整合kafka官方文檔

http://spark.apache.org/docs/latest/streaming-kafka-integration.html

spark-streaming整合flume官方文檔

http://spark.apache.org/docs/latest/streaming-flume-integration.html

spark-streaming整合自定義數(shù)據(jù)源官方文檔

http://spark.apache.org/docs/latest/streaming-custom-receivers.html

spark-streaming官方scala案例

https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples/streaming

簡單之美博客

http://shiyanjun.cn/archives/1097.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市夺克,隨后出現(xiàn)的幾起案子箕宙,更是在濱河造成了極大的恐慌,老刑警劉巖铺纽,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異哟忍,居然都是意外死亡狡门,警方通過查閱死者的電腦和手機(jī)陷寝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來其馏,“玉大人凤跑,你說我怎么就攤上這事∨迅矗” “怎么了仔引?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長褐奥。 經(jīng)常有香客問我咖耘,道長,這世上最難降的妖魔是什么撬码? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任儿倒,我火速辦了婚禮,結(jié)果婚禮上呜笑,老公的妹妹穿的比我還像新娘夫否。我一直安慰自己,他們只是感情好叫胁,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布凰慈。 她就那樣靜靜地躺著,像睡著了一般驼鹅。 火紅的嫁衣襯著肌膚如雪微谓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天谤民,我揣著相機(jī)與錄音堰酿,去河邊找鬼。 笑死张足,一個(gè)胖子當(dāng)著我的面吹牛触创,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播为牍,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼哼绑,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了碉咆?” 一聲冷哼從身側(cè)響起抖韩,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎疫铜,沒想到半個(gè)月后茂浮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年席揽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了顽馋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡幌羞,死狀恐怖寸谜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情属桦,我是刑警寧澤熊痴,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站聂宾,受9級特大地震影響果善,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜亏吝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一岭埠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蔚鸥,春花似錦惜论、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至弹谁,卻和暖如春乾巧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背预愤。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工沟于, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人植康。 一個(gè)月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓旷太,卻偏偏與公主長得像,于是被迫代替她去往敵國和親销睁。 傳聞我的和親對象是個(gè)殘疾皇子供璧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容