Flink MeetUp
總結(jié)
小小的總結(jié)一下, 今天這場 flink meetUp 想去的原因呢, 很簡單 -- 在家有點無聊, 想出去走走. 然后就約了這場分享會, 定了下去上海的高鐵票. 出行之時, 還出現(xiàn)了點小插曲. 原來以為的是10點半從家出發(fā)差不多, 結(jié)果 10點多的時候, 一看火車票時間, 10點30分, 呀, 計算失誤, 來不及了... 沒辦法, 又定了唯一的一班 11點半的高鐵, 前面一班改簽都來不及改了.
說說收獲吧
有贊
第一個分享者來自有贊, 他們的實時平臺架構(gòu)大概是這樣的.
他比較了一下, Flink
和 SparkStructured Streaming
的區(qū)別
簡單來講,
- 性能上,
Flink
的延遲更低, 在吞吐量和延遲上達到了一個很好的平衡 - sql 支持上,
Flink
對 一個query包含多個聚合, distinct 去重 等比SparkStructured Streaming
處理的更好
后面講了 flink
在 yarn
上進行部署時產(chǎn)生的一些問題, 我對此不太了解, 就不展開了
Flink 結(jié)合 spring
這里他主要講了, 如何在Spring 中使用 Flink, 主要是用了下圖中的結(jié)構(gòu)
Flink 異步不支持 KeyedState
Flink Cep
cep 即 Complex event processing
【01 有贊 楊詩旻】Flink 在有贊的實踐 final.pdf
袋鼠云
袋鼠云主要做了一件事, 擴展了 Flink SQL, 使得 外部數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)/key-value 也可以參與進 流的計算中.
開源地址: https://github.com/DTStack/flinkStreamSQL
【02 袋鼠云 楊思樞】Flink在袋鼠云一站式大數(shù)據(jù)平臺中的使用.pdf
匯智
主要使用 一個規(guī)則引擎來進行數(shù)據(jù)處理... 具體看 pdf, 感覺沒啥新意.
rocketMQ commiter
主要講講這個
講得很不錯. 作者是王鑫, 一個專注于流處理的開源愛好者, 來源是 2018.11.04 flink meetup 上海站. 他的github是 https://github.com/vesense.
下載地址: Stream Processing with Apache RocketMQ and Apache Flink
趨勢 -- 批流統(tǒng)一
提到了 google 開源的apache beam
, 可以參考下這篇:Apache Beam簡介
, 它使用了 批流統(tǒng)一處理的api.
今年在杭州的阿里云棲大會上, 我聽了幾場flink的分享, 注意到了一個東西, 就是阿里的實時計算產(chǎn)品 Blink
已經(jīng)提供了批流統(tǒng)一處理的api, Blink
是基于flink
開發(fā)出來的一套產(chǎn)品, 我看了 blink
的文檔 Blink batch, 已經(jīng)可以試用了.
open-messaging
open-messaging 是一套規(guī)范, 為流的應用程序提供一套統(tǒng)一的api標準. 簡單來講, 為了在多個MQ系統(tǒng)上, 都能使用同一套代碼, open-messaging 也會提供一套默認實現(xiàn), 比如 open-messaging 實現(xiàn)了批流統(tǒng)一, 那么 MQ 的開源者們, 如 kafka 就不必去再實現(xiàn)一次了.
github: https://github.com/openmessaging/specification/ 有興趣可以看下.
他還提到了一點, 很多 MQ 都提供了一套 流處理的實現(xiàn), 如 kafka-streams, ksql, spark-stream, rocketMQ-stream等.
流處理最好的標準就是 sql
清晰明了,簡單通用,可優(yōu)化.
如何減少gc
提問環(huán)節(jié)提到了如何減少頻繁的gc
- 使用 redis等緩存
- 使用 sql
阿里
主要講了 flink 的資源分配, 不過沒講啥實現(xiàn)的東西, 沒怎么聽.