Spark Streaming編程-java版

目錄介紹

StreamingContext:核心概念1

官方文檔:帶領(lǐng)著進(jìn)入Spark Streaming的開(kāi)發(fā)

http://spark.apache.org/docs/latest/streaming-programming-guide.html#initializing-streamingcontext



Discretized(離散化) Streams(DStreams):核心概念2


對(duì)DStream的計(jì)算操作葱蝗,底層其實(shí)就是其中包含的RDD進(jìn)行操作比如做map/flatMap

Input DStreams and Receivers:核心概念3


Input DStreams是一種來(lái)自于網(wǎng)絡(luò)服務(wù)器的源源不斷的數(shù)據(jù)流芹橡,每一個(gè)Input DStreams都會(huì)被Receivers解析成一個(gè)對(duì)象赂蠢,并存儲(chǔ)在Spark的內(nèi)存中誓竿,但是除了文件流以外纳猫。


當(dāng)你使用local模式運(yùn)行Spark Streaming時(shí)婆咸,使用的local[n],必須n大于receivers的數(shù)量,如果你接受的不是網(wǎng)絡(luò)數(shù)據(jù)芜辕,而是來(lái)自文件系統(tǒng)的文件流尚骄,則不必要遵循這個(gè)規(guī)則,因?yàn)槲募鞑恍枰猺eceivers的解析工作侵续。


Transformations on DStreams:核心概念4



Output Operations on DStreams:核心概念5


Spark Streaming處理socket數(shù)據(jù)-案例

首先把java對(duì)應(yīng)的spark streaming的java版的jar包配置到項(xiàng)目的pom文件中

地址:https://search.maven.org/artifact/org.apache.spark/spark-sql_2.10/2.1.1/jar



linux往某個(gè)端口輸入數(shù)據(jù):

nc -lk 端口號(hào)

打包我們的java類(lèi)

kafka-test-1.0-SNAPSHOT.jar倔丈,并放在jar文件夾下/home/hadoop/waimai/selfjars/

提交到y(tǒng)arn上運(yùn)行

./spark-submit --class com.lppz.sparkstreaming.NetworkWordCount --master yarn /home/hadoop/waimai/selfjars/kafka-test-1.0-SNAPSHOT.jar 10.101.3.3 9999

Spark Streaming處理文件系統(tǒng)數(shù)據(jù)


直接統(tǒng)計(jì)本地文件的wordcount

文件系統(tǒng)方式讀取數(shù)的注意事項(xiàng):

文件夾可以是本地服務(wù)器文件夾,也可以是任何文件系統(tǒng)地址如:hdfs://namenode:8040/logs/状蜗,S3需五,NFS,ETC等

1轧坎、textFileStream中的文件夾會(huì)被Streaming監(jiān)控起來(lái)宏邮,并且會(huì)被處理。

2、被監(jiān)控的文件夾下的所有文件必須是同一中格式蜜氨。

3械筛、一旦文件被處理之后,即使文件有所變化飒炎,也不會(huì)被再次處理埋哟。也就是說(shuō)僅僅會(huì)被處理一次。

4郎汪、文件夾里的文件越多赤赊,所需要耗費(fèi)的掃描時(shí)間越多,即使文件沒(méi)有被更改過(guò)煞赢。



Spark Streaming帶狀態(tài)的算子:UpdateStateByKey

實(shí)戰(zhàn):

1砍鸠、計(jì)算到目前為止累計(jì)出現(xiàn)的單詞個(gè)數(shù)寫(xiě)入到MySql中



使用updateStateByKey必須設(shè)置checkpoint

把結(jié)果寫(xiě)入mysql,我們 要用到DStream的output的操作


錯(cuò)誤1會(huì)出現(xiàn)序列化錯(cuò)誤


我自己實(shí)現(xiàn)的一個(gè)簡(jiǎn)陋的樣例耕驰,僅供參考

實(shí)現(xiàn)現(xiàn)程池管理數(shù)據(jù)庫(kù)鏈接爷辱,然后定時(shí)清理計(jì)算結(jié)果

2、基于Window的統(tǒng)計(jì)


3朦肘、黑名單過(guò)濾

實(shí)現(xiàn)要求:

訪問(wèn)日志==》DStream

20190610饭弓、zhangsan??

20190610、lisi

20190610媒抠、wangwu

黑名單列表==》RDD

lisi弟断、wangwu

==》20190610、zhangsan??

其中l(wèi)isi和wangwu是黑名單趴生,需要過(guò)濾掉

只輸出20190610阀趴、zhangsan

那么我們?nèi)绾伟袲Stream與RDD的數(shù)據(jù)進(jìn)行關(guān)聯(lián)操作吶?

如下:

20190610苍匆、zhangsan??

20190610刘急、lisi

20190610、wangwu

===》轉(zhuǎn)化成(zhangsan:20190610,zhangsan)(lisi:20190610,lisi)(wangwu:20190610,wangwu)

黑名單列表lisi浸踩、wangwu

===》轉(zhuǎn)化成(lisi:true)(wangwu:true)

===>20190610叔汁、zhangsan??

使用leftjoin,就能得到如下列表

===》

(zhagnsan:<20190610,zhangsan>,<true>)

(lisi:<20190610,lisi>,<true>)

(wangwu:<20190610,wangwu>,<false>)

要想拿到20190610,wangwu,只需要===》tuple 1就可以了

接下來(lái)看下我們寫(xiě)的例子检碗。

我們需要用到Transform這個(gè)API


讓DStream與RDD關(guān)聯(lián)起來(lái)的方式


4据块、Spark Streaming整合Spark SQL

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市折剃,隨后出現(xiàn)的幾起案子另假,更是在濱河造成了極大的恐慌,老刑警劉巖怕犁,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件边篮,死亡現(xiàn)場(chǎng)離奇詭異开睡,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)苟耻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)篇恒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人凶杖,你說(shuō)我怎么就攤上這事胁艰。” “怎么了智蝠?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵腾么,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我杈湾,道長(zhǎng)解虱,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任漆撞,我火速辦了婚禮殴泰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘浮驳。我一直安慰自己悍汛,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布至会。 她就那樣靜靜地躺著离咐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪奉件。 梳的紋絲不亂的頭發(fā)上宵蛀,一...
    開(kāi)封第一講書(shū)人閱讀 51,258評(píng)論 1 300
  • 那天,我揣著相機(jī)與錄音县貌,去河邊找鬼术陶。 笑死,一個(gè)胖子當(dāng)著我的面吹牛窃这,可吹牛的內(nèi)容都是我干的瞳别。 我是一名探鬼主播征候,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼杭攻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了疤坝?” 一聲冷哼從身側(cè)響起兆解,我...
    開(kāi)封第一講書(shū)人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎跑揉,沒(méi)想到半個(gè)月后锅睛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體埠巨,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年现拒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辣垒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡印蔬,死狀恐怖勋桶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情侥猬,我是刑警寧澤例驹,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站退唠,受9級(jí)特大地震影響鹃锈,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞧预,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一屎债、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧垢油,春花似錦扔茅、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至惊楼,卻和暖如春玖瘸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背檀咙。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工雅倒, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人弧可。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓蔑匣,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親棕诵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子裁良,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354