202炫乓、Spark 2.0之Structured Streaming：編程模型

Structured Streaming基礎(chǔ)編程模型

structured streaming的核心理念献丑，就是將數(shù)據(jù)流抽象成一張表阳距，而源源不斷過(guò)來(lái)的數(shù)據(jù)是持續(xù)地添加到這個(gè)表中的结借。這就產(chǎn)生了一種全新的流式計(jì)算模型，與離線計(jì)算模型是很類似的船老。你可以使用與在一個(gè)靜態(tài)表中執(zhí)行離線查詢相同的方式來(lái)編寫流式查詢。spark會(huì)采用一種增量執(zhí)行的方式來(lái)對(duì)表中源源不斷的數(shù)據(jù)進(jìn)行查詢馍管。我們可以將輸入數(shù)據(jù)流想象成是一張input table薪韩。數(shù)據(jù)流中每條新到達(dá)的數(shù)據(jù)，都可以想象成是一條添加到表中的新數(shù)據(jù)罗捎。

structured-streaming-stream-as-a-table.png

針對(duì)輸入數(shù)據(jù)執(zhí)行的查詢拉盾，會(huì)產(chǎn)生一張result table。每個(gè)trigger interval倒得，比如說(shuō)1秒鐘夭禽，添加到input table中的新數(shù)據(jù)行，都會(huì)被增量地執(zhí)行我們定義的查詢操作讹躯，產(chǎn)生的結(jié)果會(huì)更新到結(jié)果表中蜀撑。當(dāng)結(jié)果表被更新的時(shí)候剩彬，我們可能會(huì)希望將結(jié)果表中變化的行寫入一個(gè)外部存儲(chǔ)中。

structured-streaming-model.png

我們可以定義每次結(jié)果表中的數(shù)據(jù)更新時(shí)沃饶，以何種方式，將哪些數(shù)據(jù)寫入外部存儲(chǔ)糊肤。我們有多種模式的output：

complete mode，被更新后的整個(gè)結(jié)果表中的數(shù)據(jù)业舍，都會(huì)被寫入外部存儲(chǔ)升酣。具體如何寫入，是根據(jù)不同的外部存儲(chǔ)自身來(lái)決定的下面。
append mode绩聘，只有最近一次trigger之后，新增加到result table中的數(shù)據(jù)凿菩，會(huì)被寫入外部存儲(chǔ)蓄髓。只有當(dāng)我們確定，result table中已有的數(shù)據(jù)是肯定不會(huì)被改變時(shí)会喝，才應(yīng)該使用append mode。
update mode枉阵，只有最近一次trigger之后预茄，result table中被更新的數(shù)據(jù)，包括增加的和修改的拙徽，會(huì)被寫入外部存儲(chǔ)中诗宣。spark 2.0中還不支持這種mode。這種mode和complete mode不同召庞，沒(méi)有改變的數(shù)據(jù)是不會(huì)寫入外部存儲(chǔ)的来破。

我們可以以上篇的wordcount例子作為背景來(lái)理解忘古，lines dataframe是一個(gè)input table，而wordcounts dataframe就是一個(gè)result table送朱。當(dāng)應(yīng)用啟動(dòng)后干旁，spark會(huì)周期性地check socket輸入源中是否有新數(shù)據(jù)到達(dá)。如果有新數(shù)據(jù)到達(dá)商乎，那么spark會(huì)將之前的計(jì)算結(jié)果與新到達(dá)的數(shù)據(jù)整合起來(lái)祭阀，以增量的方式來(lái)運(yùn)行我們定義的計(jì)算操作，進(jìn)而計(jì)算出最新的單詞計(jì)數(shù)結(jié)果抹凳。

這種模型跟其他很多流式計(jì)算引擎都不同伦腐。大多數(shù)流式計(jì)算引擎都需要開(kāi)發(fā)人員自己來(lái)維護(hù)新數(shù)據(jù)與歷史數(shù)據(jù)的整合并進(jìn)行聚合操作。然后我們就需要自己去考慮和實(shí)現(xiàn)容錯(cuò)機(jī)制幸冻、數(shù)據(jù)一致性的語(yǔ)義等咳焚。然而在structured streaming的這種模式下，spark會(huì)負(fù)責(zé)將新到達(dá)的數(shù)據(jù)與歷史數(shù)據(jù)進(jìn)行整合革半，并完成正確的計(jì)算操作又官，同時(shí)更新result table，不需要我們?nèi)タ紤]這些事情六敬。

Structured Streaming之event-time和late-data process

event-time指的是嵌入在數(shù)據(jù)自身內(nèi)部的一個(gè)時(shí)間。在很多流式計(jì)算應(yīng)用中崖疤，我們可能都需要根據(jù)event-time來(lái)進(jìn)行處理典勇。例如，可能我們需要獲取某個(gè)設(shè)備每分鐘產(chǎn)生的事件的數(shù)量权烧，那么我們就需要使用事件產(chǎn)生時(shí)的時(shí)間伤溉，而不是spark接受到這條數(shù)據(jù)的時(shí)間。設(shè)備產(chǎn)生的每個(gè)事件都是input table中的一行數(shù)據(jù)板祝，而event-time就是這行數(shù)據(jù)的一個(gè)字段走净。這就可以支持我們進(jìn)行基于時(shí)間窗口的聚合操作（例如每分鐘的事件數(shù)量），只要針對(duì)input table中的event-time字段進(jìn)行分組和聚合即可伏伯。每個(gè)時(shí)間窗口就是一個(gè)分組说搅，而每一行都可以落入不同行的分組內(nèi)。因此弄唧，類似這樣的基于時(shí)間窗口的分組聚合操作，既可以被定義在一份靜態(tài)數(shù)據(jù)上迂猴，也可以被定義在一個(gè)實(shí)時(shí)數(shù)據(jù)流上背伴。

此外，這種模型也天然支持延遲到達(dá)的數(shù)據(jù)息尺，late-data疾掰。spark會(huì)負(fù)責(zé)更新result table，因此它有決定的控制權(quán)來(lái)針對(duì)延遲到達(dá)的數(shù)據(jù)進(jìn)行聚合結(jié)果的重新計(jì)算炭懊。雖然目前在spark 2.0中還沒(méi)有實(shí)現(xiàn)這個(gè)feature，但是未來(lái)會(huì)基于event-time watermark（水游旮埂）來(lái)實(shí)現(xiàn)這個(gè)late-data processing的feature。

Structured Streaming容錯(cuò)語(yǔ)義

structured streaming的核心設(shè)計(jì)理念和目標(biāo)之一愈涩，就是支持一次且僅一次的語(yǔ)義加矛。為了實(shí)現(xiàn)這個(gè)目標(biāo)，structured streaming設(shè)計(jì)將source毁腿、sink和execution engine來(lái)追蹤計(jì)算處理的進(jìn)度苛茂，這樣就可以在任何一個(gè)步驟出現(xiàn)失敗時(shí)自動(dòng)重試。每個(gè)streaming source都被設(shè)計(jì)成支持offset草戈，進(jìn)而可以讓spark來(lái)追蹤讀取的位置侍瑟。spark基于checkpoint和wal來(lái)持久化保存每個(gè)trigger interval內(nèi)處理的offset的范圍。sink被設(shè)計(jì)成可以支持在多次計(jì)算處理時(shí)保持冪等性费韭，就是說(shuō)庭瑰，用同樣的一批數(shù)據(jù)，無(wú)論多少次去更新sink督暂，都會(huì)保持一致和相同的狀態(tài)穷吮。這樣的話，綜合利用基于offset的source捡鱼，基于checkpoint和wal的execution engine，以及基于冪等性的sink缠诅，可以支持完整的一次且僅一次的語(yǔ)義。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末士败，一起剝皮案震驚了整個(gè)濱河市汉匙，隨后出現(xiàn)的幾起案子生蚁，更是在濱河造成了極大的恐慌邦投，老刑警劉巖，帶你破解...
沈念sama閱讀 217,542評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件屯援，死亡現(xiàn)場(chǎng)離奇詭異念脯，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)绿店，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,822評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門假勿，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人恶导，你說(shuō)我怎么就攤上這事浸须。” “怎么了删窒？”我有些...
開(kāi)封第一講書人閱讀 163,912評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵易稠，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我企量，道長(zhǎng)，這世上最難降的妖魔是什么届巩？我笑而不...
開(kāi)封第一講書人閱讀 58,449評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任恕汇，我火速辦了婚禮，結(jié)果婚禮上枣接，老公的妹妹穿的比我還像新娘缺谴。我一直安慰自己，他們只是感情好湿蛔，可當(dāng)我...
茶點(diǎn)故事閱讀 67,500評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布阳啥。她就那樣靜靜地躺著，像睡著了一般碉钠。火紅的嫁衣襯著肌膚如雪卷拘。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 51,370評(píng)論 1贊 302
城市分裂傳說(shuō)
那天污筷，我揣著相機(jī)與錄音乍赫，去河邊找鬼。笑死惋增，一個(gè)胖子當(dāng)著我的面吹牛改鲫，可吹牛的內(nèi)容都是我干的林束。我是一名探鬼主播稽亏，決...
沈念sama閱讀 40,193評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼截歉，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了瘪松？” 一聲冷哼從身側(cè)響起宵睦，我...
開(kāi)封第一講書人閱讀 39,074評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎毫胜，沒(méi)想到半個(gè)月后诬辈，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體荐吉，經(jīng)...
沈念sama閱讀 45,505評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,722評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了痪欲。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,841評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡栗柒，死狀恐怖知举，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情逛钻，我是刑警寧澤锰提，帶...
沈念sama閱讀 35,569評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布芳悲，位于F島的核電站屡江，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏罢洲。R本人自食惡果不足惜文黎，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,168評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一耸峭、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧劳闹，春花似錦、人聲如沸业汰。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,783評(píng)論 0贊 22
一樁弒父案讶迁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)吻贿。三九已至，卻和暖如春呻右，著一層夾襖步出監(jiān)牢的瞬間跪妥，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,918評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工声滥，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留眉撵，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,962評(píng)論 2贊 370
代替公主和親
正文我出身青樓醒串，卻偏偏與公主長(zhǎng)得像执桌，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子芜赌，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,781評(píng)論 2贊 354

202涨薪、Spark 2.0之Structured Streaming：編程模型

202炫乓、Spark 2.0之Structured Streaming：編程模型

Structured Streaming基礎(chǔ)編程模型

Structured Streaming之event-time和late-data process

Structured Streaming容錯(cuò)語(yǔ)義

推薦閱讀更多精彩內(nèi)容