1犯戏、功能特性
- 支持streaming流處理势腮、batch批處理
- 容錯:提供有狀態(tài)的計算,記錄數(shù)據(jù)的處理狀態(tài)烈钞,基于chandy-lamport算法實現(xiàn)分布式一致性快照泊碑,提供一致性語義
- 可伸縮:一個集群支持上千個節(jié)點
- 高吞吐、低延遲
2毯欣、架構(gòu)
- deploy層:部署層馒过,flink支持本地、集群和云服務器
- core層:為api層提供服務酗钞,提供支持flink計算的全部核心實現(xiàn)
- api&libraries:提供面向流處理腹忽、批處理的api;以及機器學習砚作、圖形處理等擴展庫
3窘奏、常見實時框架對比
模型 | 一致性 | 容錯機制 | 延時/吞吐量 | |
---|---|---|---|---|
Storm | Native(數(shù)據(jù)進入立即處理) | at-lease-once(至少一次) | record ack | 低/低 |
Spark Streaming | Micro-batching | exactly-once | rdd checkpoint | 中/高 |
Flink | Native | exactly-once | checkpoint(snapshot) | 高/高 |
4、flink基本組件
- datasource:主要用來接收數(shù)據(jù)
- transform:算子偎巢,對數(shù)據(jù)進行加工處理蔼夜,比如map、reduce压昼、filter求冷、aggregation、
- datasink:數(shù)據(jù)輸出組件窍霞,主要用來保存數(shù)據(jù)到其他介質(zhì)中