FLink的窗口機(jī)制與流處理Join的方案

FLink底層引擎是一個(gè)流式引擎,支持流處理和批處理龄糊,而window是streaming到batch的橋梁奴曙。因?yàn)榱魈幚磉^程中,數(shù)據(jù)是源源不斷流進(jìn)來的邓厕,需要對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理的話逝嚎,可以通過來一個(gè)消息處理一個(gè)的方式,也可以通過把一段時(shí)間內(nèi)的數(shù)據(jù)聚合之后详恼,再一起處理的形式补君,此時(shí)需要定義一個(gè)窗口來收集過去那段時(shí)間內(nèi)的數(shù)據(jù)再進(jìn)行處理。

Flink 提出了三種時(shí)間的概念昧互,分別是event time(事件時(shí)間:事件發(fā)生時(shí)的時(shí)間)挽铁,ingestion time(攝取時(shí)間:事件進(jìn)入流處理系統(tǒng)的時(shí)間)伟桅,processing time(處理時(shí)間:消息被計(jì)算處理的時(shí)間)。

窗口類型

窗口可以是時(shí)間驅(qū)動的(Time Window叽掘,例如:每30秒鐘)楣铁,也可以是數(shù)據(jù)驅(qū)動的(Count Window,例如:每一百個(gè)元素)够掠。一種經(jīng)典的窗口分類為:

  • Tumbling window (滾動窗口民褂,無重疊)

滾動窗口分配器將每個(gè)元素分配給指定窗口大小的窗口。滾動窗口具有固定的大小并且不重疊疯潭。例如赊堪,如果指定大小為5分鐘的滾動窗口,則將評估當(dāng)前窗口竖哩,并且每五分鐘將啟動一個(gè)新窗口哭廉,如下圖所示。
sliding window
sliding window
  • sliding window (滑動窗口相叁,時(shí)間有重疊)

滑動窗口分配器將元素分配給固定長度的窗口遵绰。類似于滾動窗口分配器,窗口的大小由窗口大小參數(shù)配置增淹。另外一個(gè)參數(shù)控制滑動窗口的啟動頻率椿访。因此,如果頻率小于窗口尺寸虑润,滑動窗可以重疊成玫。在這種情況下,元素被分配到多個(gè)窗口拳喻。
例如哭当,使用大小為10分鐘的窗口,滑過5分鐘冗澈。如下圖所示钦勘。


Tumbling window
Tumbling window
  • session window(會話窗口,無重疊)

會話窗口通過活動會話分配組元素亚亲。與滾動窗口和滑動窗口相比彻采,會話窗口不重疊,沒有固定的開始和結(jié)束時(shí)間捌归。相反颊亮,當(dāng)會話窗口在一段時(shí)間內(nèi)沒有接收到元素時(shí),即當(dāng)發(fā)生不活動的間隙時(shí)關(guān)閉陨溅。會話窗口分配器配置有會話間隙,定義所需的不活動時(shí)間長度绍在。當(dāng)此時(shí)間段到期時(shí)门扇,當(dāng)前會話關(guān)閉雹有,后續(xù)元素被分配到新的會話窗口。

session window
session window

還可以分別結(jié)合以時(shí)間驅(qū)動或者數(shù)據(jù)驅(qū)動臼寄,如:sliding time window,tumbling count window霸奕。

窗口常用的組件:

Window Assigner :決定某個(gè)元素被分配到哪個(gè)/哪些窗口中去。

Trigger : 觸發(fā)器吉拳,進(jìn)行窗口的處理或清除质帅,每個(gè)窗口都會擁有一個(gè)的Trigger。

Evictor : “驅(qū)逐者”留攒,類似filter作用煤惩。在Trigger觸發(fā)之后,window被處理前炼邀,EVictor用來處理窗口中無用的元素魄揉。

窗口應(yīng)用在join操作

由以上可以得知,若要對兩條數(shù)據(jù)流進(jìn)行join操作拭宁,則一定是基于window形式的洛退,同樣的還有和join操作類似的CoGroupedStreams〗鼙辏可以發(fā)現(xiàn)兵怯,F(xiàn)link中joinStream會通過調(diào)用windowStream來實(shí)現(xiàn)。如圖腔剂。

Flink流類型

接下來媒区,對join的一個(gè)實(shí)現(xiàn)類WindowJoin進(jìn)行分析⊥靶基本思想為在一個(gè)時(shí)間窗內(nèi)對兩條數(shù)據(jù)結(jié)構(gòu)為鍵值對數(shù)據(jù)流進(jìn)行inner join操作驻仅。

重要參數(shù)配置:根據(jù)Flink的時(shí)間概念,時(shí)間屬性時(shí)間選為ingestion time登渣,并設(shè)置了窗口大小和數(shù)據(jù)傳輸速率噪服。

函數(shù)調(diào)用

  • where():給兩條數(shù)據(jù)流指定各自的keySelector,獲取key的類型

  • equal()判斷key是否相同

  • window():制作一個(gè)ID標(biāo)識符胜茧,配置窗口中的

    • 輸入流DataStream粘优、keySelector、key type等元數(shù)據(jù)
    • 窗口組件window assigner呻顽、Trigger雹顺、EVictor
    image.png
  • apply():配置join操作方法

  • 最后通過execute()執(zhí)行inner join操作

問題

join 窗口的雙流數(shù)據(jù)都是被緩存在內(nèi)存中的,也就是說如果某個(gè)key上的窗口數(shù)據(jù)太多就會導(dǎo)致 JVM OOM廊遍。雙流join的難點(diǎn)也正是在這里嬉愧。例如可以借鑒Flink在批處理join中的優(yōu)化方案,也可以像HDFS對中間結(jié)果的操作那樣喉前,當(dāng)數(shù)據(jù)超過閾值時(shí)能spill到硬盤没酣。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末王财,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子裕便,更是在濱河造成了極大的恐慌绒净,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件偿衰,死亡現(xiàn)場離奇詭異挂疆,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)下翎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進(jìn)店門缤言,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人漏设,你說我怎么就攤上這事墨闲。” “怎么了郑口?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵鸳碧,是天一觀的道長。 經(jīng)常有香客問我犬性,道長瞻离,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任乒裆,我火速辦了婚禮套利,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鹤耍。我一直安慰自己肉迫,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布稿黄。 她就那樣靜靜地躺著喊衫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪杆怕。 梳的紋絲不亂的頭發(fā)上族购,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天,我揣著相機(jī)與錄音陵珍,去河邊找鬼寝杖。 笑死,一個(gè)胖子當(dāng)著我的面吹牛互纯,可吹牛的內(nèi)容都是我干的瑟幕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼收苏!你這毒婦竟也來了亿卤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤鹿霸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后秆乳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體懦鼠,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年屹堰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了肛冶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,427評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡扯键,死狀恐怖睦袖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情荣刑,我是刑警寧澤馅笙,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站厉亏,受9級特大地震影響董习,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜爱只,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一穆刻、第九天 我趴在偏房一處隱蔽的房頂上張望赎败。 院中可真熱鬧,春花似錦、人聲如沸飞傀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锅知。三九已至,卻和暖如春畦粮,著一層夾襖步出監(jiān)牢的瞬間散址,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工宣赔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留预麸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓儒将,卻偏偏與公主長得像吏祸,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子钩蚊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容