Apache Flink 是一個(gè)分布式處理引擎及框架湿颅,用以對(duì)無(wú)限數(shù)據(jù)和有限數(shù)據(jù)流做有狀態(tài)計(jì)算枯途。Flink 被設(shè)計(jì)成在所有常見的集群環(huán)境中運(yùn)行刊棕,以內(nèi)存速度和任何規(guī)模執(zhí)行計(jì)算钢猛。
在這里察郁,我們會(huì)解釋Flink 架構(gòu)的幾個(gè)重要方面衍慎。
處理有限/無(wú)限數(shù)據(jù)
任何類型的數(shù)據(jù),都被當(dāng)成事件流處理皮钠。信用卡交易稳捆、傳感器數(shù)據(jù)、機(jī)器日志麦轰、用戶與網(wǎng)站的交互數(shù)據(jù)以及手機(jī)應(yīng)用乔夯,所有這些數(shù)據(jù)都被生成為一個(gè)流。
數(shù)據(jù)可以被處理成有限數(shù)據(jù)流和無(wú)限數(shù)據(jù)流款侵。
- 無(wú)限數(shù)據(jù)流:有開始沒結(jié)束末荐。他們一旦開始就不會(huì)種植。無(wú)限數(shù)據(jù)流必須持續(xù)產(chǎn)生新锈,一旦產(chǎn)生甲脏,就必須被即使處理。想要等所有數(shù)據(jù)都到達(dá)之后再處理是不可能的妹笆,此類數(shù)據(jù)不會(huì)在任何時(shí)間任何地點(diǎn)完成块请。處理無(wú)限數(shù)據(jù)流通常需要按照特定的順序(如事件發(fā)生的順序)接收事件,以便能夠推斷結(jié)果的完整性拳缠。
-
有限數(shù)據(jù)流:有始有終负乡。有限數(shù)據(jù)流可以在獲取所有數(shù)據(jù)之后在著手處理,在獲取數(shù)據(jù)時(shí)脊凰,也不要求按照某種順序抖棘,因?yàn)橛邢迶?shù)據(jù)集通常能夠被排序。有限數(shù)據(jù)流的處理也被稱為批處理狸涌。
對(duì)時(shí)間和狀態(tài)的精確控制使Flink的運(yùn)行時(shí)能夠在無(wú)限數(shù)據(jù)流上運(yùn)行任何類型的應(yīng)用程序切省。有限流由專門為固定大小的數(shù)據(jù)集設(shè)計(jì)的算法和數(shù)據(jù)結(jié)構(gòu)進(jìn)行內(nèi)部處理,從而產(chǎn)生優(yōu)異的性能帕胆。
想要了解更多的話朝捆,請(qǐng)參考這些基于Flink 的用戶實(shí)例。
部署應(yīng)用:適配各種環(huán)境
Apache Flink 是一個(gè)分布式系統(tǒng)懒豹,需要計(jì)算資源來(lái)執(zhí)行應(yīng)用芙盘。Flink 可以集成到任何常見的集群資源管理器中驯用,如:Hadoop YARN、Apache Mesos 以及Kubernetes儒老,同時(shí)也可以運(yùn)行為一個(gè)單獨(dú)的集群蝴乔。
Flink 可以和前面提到的這些資源管理器很好的協(xié)作,這是通過(guò)一個(gè)被稱為"資源管理器部署模式"的設(shè)計(jì)來(lái)實(shí)現(xiàn)的驮樊,通過(guò)這個(gè)設(shè)計(jì)薇正,F(xiàn)link 可以適配各種資源管理器。
當(dāng)部署Flink 應(yīng)用時(shí)囚衔,F(xiàn)link 會(huì)基于應(yīng)用的配置自動(dòng)識(shí)別所需要的資源挖腰,并從資源管理器中獲取。當(dāng)出現(xiàn)故障時(shí)练湿,F(xiàn)link 會(huì)請(qǐng)求新的資源并替換那些失敗了的容器猴仑。所有提交、控制應(yīng)用的請(qǐng)求都是通過(guò)REST調(diào)用肥哎。這大大簡(jiǎn)化了Flink 在很多場(chǎng)景下的集成工作宁脊。
運(yùn)行應(yīng)用:隨意變更規(guī)模
Flink 在設(shè)計(jì)上支持運(yùn)行任意規(guī)模的有狀態(tài)流應(yīng)用。應(yīng)用程序被并行化為數(shù)千個(gè)任務(wù)贤姆,這些任務(wù)在集群中分布并并發(fā)執(zhí)行榆苞。因此,應(yīng)用程序可以利用幾乎無(wú)限量的CPU霞捡、主內(nèi)存坐漏、磁盤和網(wǎng)絡(luò)IO。而且碧信,F(xiàn)link很容易維護(hù)非常大的應(yīng)用程序狀態(tài)赊琳。它的異步和增量檢查點(diǎn)算法確保對(duì)處理延遲的影響最小,同時(shí)保證一次狀態(tài)的一致性砰碴。
以下是用戶的使用心得躏筏,關(guān)于在正式環(huán)境運(yùn)行Flink 應(yīng)用程序的表現(xiàn):
- 應(yīng)用程序每天處理數(shù)萬(wàn)億事件
- 應(yīng)用程序維護(hù)TB量級(jí)的狀態(tài)
- 應(yīng)用程序在數(shù)千個(gè)CPU上運(yùn)行
利用內(nèi)存性能
有狀態(tài)的Flink 應(yīng)用程序針對(duì)本地狀態(tài)訪問進(jìn)行了優(yōu)化。任務(wù)狀態(tài)通常保存在內(nèi)存中呈枉,或者趁尼,如果狀態(tài)大小超過(guò)可用內(nèi)存,則保存在訪問效率較高的磁盤數(shù)據(jù)結(jié)構(gòu)上猖辫。因此酥泞,任務(wù)通過(guò)訪問本地(通常在內(nèi)存中)的狀態(tài)執(zhí)行所有計(jì)算,從而產(chǎn)生非常低的處理延遲啃憎。Flink通過(guò)定期和異步地檢查本地狀態(tài)到持久存儲(chǔ)芝囤,從而確保在發(fā)生故障時(shí)的狀態(tài)一致性。