實(shí)時流計算:Structured Streaming

Sparkstreaming首次引入在0.*版本骄噪,其核心思想是利用spark批處理框架,以microbatch(以一段時間的流作為一個batch)的方式手趣,完成對流數(shù)據(jù)的處理虑润。其核心思想是建立DStream進(jìn)行微批處理,依舊屬于批處理的一部分骇两。不滿足基于Event Time的實(shí)時處理需求速种。


Event time 事件時間: 就是數(shù)據(jù)真正發(fā)生的時間,比如用戶瀏覽了一個頁面可能會產(chǎn)生一條用戶的該時間點(diǎn)的瀏覽日志低千。
Process time 處理時間: 則是這條日志數(shù)據(jù)真正到達(dá)計算框架中被處理的時間點(diǎn)配阵,簡單的說,就是你的Spark程序是什么時候讀到這條日志的示血。


事件時間是嵌入在數(shù)據(jù)本身中的時間棋傍。對于許多應(yīng)用程序,用戶可能希望在此事件時間操作难审。例如瘫拣,如果要獲取IoT設(shè)備每分鐘生成的事件數(shù),則可能需要使用生成數(shù)據(jù)的時間(即數(shù)據(jù)中的事件時間)剔宪,而不是Spark接收他們的時間拂铡。事件時間在此模型中非常自然地表示 - 來自設(shè)備的每個事件都是表中的一行,事件時間是該行中的一個列值葱绒。

Structured Streaming是Spark2.0版本提出的新的實(shí)時流框架(2.0和2.1是實(shí)驗版本,從Spark2.2開始為穩(wěn)定版本)斗锭,相比于Spark Streaming地淀,優(yōu)點(diǎn)如下:
1.同樣能支持多種數(shù)據(jù)源的輸入和輸出,Kafka岖是、flume帮毁、Socket、Json豺撑。
2.基于Event-Time烈疚,相比于Spark Streaming的Processing-Time更精確,更符合業(yè)務(wù)場景聪轿。
3.支持spark2的dataframe處理爷肝。
4.解決了Spark Streaming存在的代碼升級,DAG圖變化引起的任務(wù)失敗,無法斷點(diǎn)續(xù)傳的問題灯抛。
5.基于SparkSQL構(gòu)建的可擴(kuò)展和容錯的流式數(shù)據(jù)處理引擎金赦,使得實(shí)時流式數(shù)據(jù)計算可以和離線計算采用相同的處理方式(DataFrame&SQL)。
6.可以使用與靜態(tài)數(shù)據(jù)批處理計算相同的方式來表達(dá)流計算对嚼。
7.結(jié)構(gòu)化流查詢(Structured Streaming Query)內(nèi)部默認(rèn)使用微批處理引擎( micro-batch processing engine)夹抗,它將數(shù)據(jù)流看作一系列小的批任務(wù)(batch jobs)來處理,從而達(dá)到端到端如100毫秒這樣低的延遲以及只執(zhí)行一次容錯的保證纵竖。然而漠烧,從Spark 2.3,我們已經(jīng)引入了一個新的低延遲處理方式——連續(xù)處理(Continuous Processing)靡砌,可以達(dá)到端到端如1毫秒這樣低的延遲至少一次保證沽甥。不用改變查詢中DataSet/DataFrame的操作,你就能夠選擇基于應(yīng)用要求的查詢模式乏奥。

Structured Streaming支持的Source:
1.File Source:從給定的目錄讀取數(shù)據(jù)摆舟,目前支持的格式有text,csv,json,parquet,容錯邓了。
2.Kafka Source:從kafka拉取數(shù)據(jù)恨诱。僅兼容kafka 0.10.0或者更高版本,容錯骗炉。
3.Socket Source(for testing):從一個連接中讀取UTF8編碼的文本數(shù)據(jù)照宝,不容錯。

Structured Streaming的輸出:

輸出模式 功能
Append mode(default) 僅僅從上次觸發(fā)計算到當(dāng)前新增的行會被輸出到sink句葵。僅僅支持行數(shù)據(jù)插入結(jié)果表后不進(jìn)行更改的query操作厕鹃。因此,這種方式能保證每行數(shù)據(jù)僅僅輸出一次乍丈。例如剂碴,帶有Select,where轻专,map忆矛,flatmap,filter请垛,join等的query操作支持append模式催训。
Complete mode 每次trigger都會將整個結(jié)果表輸出到sink。這個是針對聚合操作的宗收。
Update mode 僅僅是自上次trigger之后結(jié)果表有變更的行會輸出到sink漫拭。在以后的版本中會有更詳細(xì)的信息。

StructuredStreaming目前支持的sink只有FileSink混稽、KafkaSink采驻、ConsoleSink审胚、MemorySink和ForeachSink。

其中最常用的是ForeachSink挑宠。


image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末菲盾,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子各淀,更是在濱河造成了極大的恐慌懒鉴,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碎浇,死亡現(xiàn)場離奇詭異临谱,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)奴璃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進(jìn)店門悉默,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人苟穆,你說我怎么就攤上這事抄课。” “怎么了雳旅?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵跟磨,是天一觀的道長。 經(jīng)常有香客問我攒盈,道長抵拘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任型豁,我火速辦了婚禮僵蛛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘迎变。我一直安慰自己充尉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布氏豌。 她就那樣靜靜地躺著喉酌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪泵喘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天般妙,我揣著相機(jī)與錄音纪铺,去河邊找鬼。 笑死碟渺,一個胖子當(dāng)著我的面吹牛鲜锚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼芜繁,長吁一口氣:“原來是場噩夢啊……” “哼旺隙!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起骏令,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蔬捷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后榔袋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體周拐,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年凰兑,在試婚紗的時候發(fā)現(xiàn)自己被綠了妥粟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡吏够,死狀恐怖勾给,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锅知,我是刑警寧澤播急,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站喉镰,受9級特大地震影響旅择,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜侣姆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一生真、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧捺宗,春花似錦柱蟀、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至昼牛,卻和暖如春术瓮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背贰健。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工胞四, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人伶椿。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓辜伟,卻偏偏與公主長得像氓侧,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子导狡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評論 2 355