16. 批處理和流處理

數(shù)據(jù)處理

  1. 背景

最經(jīng)典的一個數(shù)據(jù)處理MODEL


image.png

問題:每次處理一個請求进统,大量請求來的時候不是很高效。

解決方案掂榔,批處理坟桅。

image.png

批處理的時候,可以批量并發(fā)拳昌,經(jīng)典模型就是MAP/REDUCE

帶來的問題是常摧, 你知道所有的數(shù)據(jù),你知道如何處理
但是很多新的應(yīng)用是新流進(jìn)來的數(shù)據(jù)鸵荠,不是歷史數(shù)據(jù)。不能看到數(shù)據(jù)的全貌伤极。這時就要引入一個概念STREAM COMPUTING蛹找。

image.png

BATCH VS STREAMING

BATCH 的角度是數(shù)據(jù)集是已知的。 STREAM 的角度 是INPUT 是動態(tài)變化的哨坪,源源不斷的庸疾。
BATCH角度理解STREAM,某一個時間范圍內(nèi)当编,那么STREAM的數(shù)據(jù)也是確定的届慈。所以可以理解為streaming = a series of batch
stream 可以被拆解為一個個小BATCH,用BATCH 去處理忿偷。(micro batch)
最經(jīng)典的是spark streaming
從STREAM 角度看BATCH金顿。BATCH 就是一個STREAMING JOB 在一個特定條件下終止。
如FLINK, HERON鲤桥。

所有的計算引擎都會自由的在BATCH 和 STREAM 做轉(zhuǎn)換揍拆,沒有很嚴(yán)格的界定。
這2個都是數(shù)據(jù)計算的實現(xiàn)茶凳。而本質(zhì)就是輸入是BOUNDED 還是 UNBOUNDED的區(qū)別嫂拴。

Batch

Batch天生就是用來處理BOUNED 數(shù)據(jù)。


image.png

如何用BATCH 去處理UNBOUNDED 數(shù)據(jù)集贮喧?
把無限的數(shù)據(jù)筒狠,去切分成一個個小窗口,然后再這個窗口里用BATCH計算去計算箱沦。

如何定義batches?
靜態(tài)時間窗口(Fixed Size)辩恼,


image.png

動態(tài)時間窗口(session)
活動的時長,連到網(wǎng)站饱普,做了一系列操作运挫,然后就不再動了。這樣就可以動態(tài)分片套耕,針對用戶的活躍時間產(chǎn)生的數(shù)據(jù)做計算谁帕。


image.png

Streaming

時間在STREAMING系統(tǒng)中很重要。數(shù)據(jù)是流動的方式進(jìn)來冯袍,那么會有2個時間匈挖,事件到達(dá)的時間碾牌,事件產(chǎn)生的時間。


image.png

事件時間(event time):比如你點擊網(wǎng)頁的一個事件的時間點儡循。
消化時間(ingestion time):消息被收集丟到計算任務(wù)的時間點舶吗。
處理時間(process time):被計算任務(wù)處理完的時間點。

一般對用戶有意義的時間是第一個和第三個择膝。
比如一個電子溫度計誓琼,發(fā)溫度,我們需要考慮事件時間肴捉。
有些業(yè)務(wù)和事件產(chǎn)生的時間沒關(guān)系腹侣,可以用處理時間。

image.png

Streaming 處理bounded

unboudned + termination( 只跑2小時齿穗,比如處理EVENT 一直到11點)

處理unbounded

  1. 跟時間無關(guān)的
    filtering :如源源不斷的數(shù)據(jù)傲隶,瀏覽這個網(wǎng)頁的來自中國的IP是多少
    projection : 把EVENT 抽取固定信息
    transformation: 把時間的數(shù)據(jù),用數(shù)學(xué)函數(shù)轉(zhuǎn)換窃页。

  2. 近似計算
    top N

  3. 窗口計算(看使用處理時間還是事件時間)
    每個小時的點擊量
    which time to use for windowing?
    how to window?

image.png

用哪種WINDOW跺株,看用戶的需求。

固定窗口:
Process Time : 沒有DELAY脖卖, 不需要保存狀態(tài)
Event Time: event -> {seq-mp, event-time, val}
[1, 11:00, 10]
[2, 11: 01, 50]
[3, 11:02, 30]
[4, 10:55, 30]
時間可能亂序

Sum : emit result by processing time
11:00 :10
11:01 : 60
11:02 :90
11:05 : 120

Sum : emit result by event time
11:00 :10
11:01 : 60
11:02 :90
10:55 : 10:54+30
需要有10:54的狀態(tài)乒省,需要保存狀態(tài)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市胚嘲,隨后出現(xiàn)的幾起案子作儿,更是在濱河造成了極大的恐慌,老刑警劉巖馋劈,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件攻锰,死亡現(xiàn)場離奇詭異,居然都是意外死亡妓雾,警方通過查閱死者的電腦和手機娶吞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來械姻,“玉大人妒蛇,你說我怎么就攤上這事】” “怎么了绣夺?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長欢揖。 經(jīng)常有香客問我陶耍,道長,這世上最難降的妖魔是什么她混? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任烈钞,我火速辦了婚禮泊碑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘毯欣。我一直安慰自己馒过,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布酗钞。 她就那樣靜靜地躺著腹忽,像睡著了一般。 火紅的嫁衣襯著肌膚如雪算吩。 梳的紋絲不亂的頭發(fā)上留凭,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天,我揣著相機與錄音偎巢,去河邊找鬼。 笑死兼耀,一個胖子當(dāng)著我的面吹牛压昼,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瘤运,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼窍霞,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了拯坟?” 一聲冷哼從身側(cè)響起但金,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎郁季,沒想到半個月后冷溃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡梦裂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年似枕,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片年柠。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡凿歼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出冗恨,到底是詐尸還是另有隱情答憔,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布掀抹,位于F島的核電站虐拓,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏渴丸。R本人自食惡果不足惜侯嘀,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一另凌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧戒幔,春花似錦吠谢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至敢订,卻和暖如春王污,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背楚午。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工昭齐, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人矾柜。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓阱驾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親怪蔑。 傳聞我的和親對象是個殘疾皇子里覆,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容