Spark Streaming提供了滑動窗口操作的支持涧至,從而讓我們可以對一個滑動窗口內的數據執(zhí)行計算操作腹躁。每次掉落在窗口內的RDD的數據,會被聚合起來執(zhí)行計算操作化借,然后生成的RDD潜慎,會作為window DStream的一個RDD捡多。比如下圖中蓖康,就是對每三秒鐘的數據執(zhí)行一次滑動窗口計算,這3秒內的3個RDD會被聚合起來進行處理垒手,然后過了兩秒鐘蒜焊,又會對最近三秒內的數據執(zhí)行滑動窗口計算。所以每個滑動窗口操作科贬,都必須指定兩個參數泳梆,窗口長度以及滑動間隔,而且這兩個參數值都必須是batch間隔的整數倍榜掌。
操作 | 說明 |
---|---|
window | 對窗口執(zhí)行自定義計算 |
countByWindow | 對每個窗口執(zhí)行count操作 |
reduceByWindow | 對每個窗口執(zhí)行reduce操作 |
reduceByKeyWindow | 對每個窗口執(zhí)行reduceByKey操作 |
countByValueWindow | 對每個窗口執(zhí)行countByValue操作 |