1 前言
State要能發(fā)揮作用,就需要持久化到可靠存儲(chǔ)中映皆,flink中持久化的動(dòng)作就是checkpointing,那么從TM中執(zhí)行的Task的基類StreamTask的checkpoint邏輯說(shuō)起荷荤。
2 源碼解析
<1> StreamTask
類作用說(shuō)明:
所有流任務(wù)的基礎(chǔ)類睦霎,一個(gè)StreamTask是由TaskManagers部署并且運(yùn)行的本地處理的集合,每一個(gè)StreamTask運(yùn)行來(lái)自算子鏈上的一個(gè)或者多個(gè)StreamOperator。
鏈接在一起的算子在同一個(gè)線程摔笤,也在同一個(gè)流分區(qū)上够滑,這些算子鏈就是連續(xù)的map/flatMap/filter任務(wù)。StreamTask的生命周期
(1)setInitialState:用來(lái)提供算子鏈上所有算子的狀態(tài)
(2)invoke:
- 關(guān)于checkpoint方法
triggerCheckpoint方法:checkpoint協(xié)調(diào)器異步調(diào)用此方法以觸發(fā)檢查點(diǎn)吕世。
performCheckpoint方法:
(1)如上所示彰触,可以進(jìn)行checkpoint操作。
Step1:準(zhǔn)備checkpoint工作命辖,允許算子進(jìn)行一些pre-barrier工作况毅。在通常情況下,pre-barrier工作應(yīng)該為零或最少尔艇。
(通常是在算子輸出其checkpoint barrier之前尔许,需要進(jìn)行快照時(shí)調(diào)用;此方法方法不應(yīng)用于任何實(shí)際狀態(tài)快照邏輯终娃,因?yàn)樗举|(zhì)上將在操作員檢查站的同步部分之內(nèi)味廊。 如果在此方法中完成繁重的工作,它將影響等待時(shí)間和下游檢查點(diǎn)對(duì)齊棠耕。)
Step2:將checkpoint barrier發(fā)送到下游余佛。
Step3:進(jìn)行狀態(tài)快照,這應(yīng)該很大程度上是異步操作昧辽,以免影響流式拓?fù)涞倪M(jìn)度衙熔。
(2)不能進(jìn)行廣播操作,則將CancelCheckpointMarker廣播出去
checkpointState方法:
(1)創(chuàng)建CheckpointStreamFactory(檢查點(diǎn)輸出流工廠搅荞,用于保留檢查點(diǎn)的數(shù)據(jù))
該接口的實(shí)現(xiàn)類或繼承接口:
由CheckpointStorage實(shí)例調(diào)用resolveCheckpointStorageLocation方法獲取工廠
(2)創(chuàng)建CheckpointingOperation實(shí)例红氯,并執(zhí)行executeCheckpointing方法,在該方法中咕痛,會(huì)遍歷每一個(gè)算子痢甘,進(jìn)行checkpointStreamOperator操作;
該操作就是對(duì)當(dāng)前算子進(jìn)行snapshotState操作茉贡。
下面開(kāi)始進(jìn)入StreamOperator的snapshotState方法塞栅。
<2> StreamOperator的snapshotState方法
StreamOperator源碼簡(jiǎn)析
Apache Flink源碼解析 (四)Stream Operator
算子調(diào)用該方法進(jìn)行狀態(tài)的快照操作,而該方法的基本實(shí)現(xiàn)是在AbstractStreamOperator中的snapshotState方法腔丧。
在該方法中放椰,分別調(diào)用了OperatorStateBackend和KeyedStateBackend的snapshot方法。
特別注意愉粤,在調(diào)用這兩個(gè)方法之前的snapshotState(snapshotContext)這個(gè)調(diào)用砾医,它一方面實(shí)現(xiàn)了Raw的State的snapshot,一方面也實(shí)現(xiàn)了用戶自定義的函數(shù)的State的更新衣厘。
snapshotState(snapshotContext)方法:
對(duì)于具有狀態(tài)的流運(yùn)算符如蚜,想要加入快照需要重寫此hook方法压恒。
什么是CheckpointStateOutputStream?
不同的StateBackEnd會(huì)有不同的實(shí)現(xiàn)错邦,會(huì)返回不同的CheckpointStateOutputStream實(shí)現(xiàn)探赫,比如FsStateBackEnd會(huì)構(gòu)造文件流,而MemoryStateBackEnd就會(huì)構(gòu)造ByteAttayOutputStream撬呢。
而CheckpointStateOutputStream會(huì)作為IO代理包含在KeyedStateCheckpointOutputStream 和 OperatorStateCheckpointOutputStream內(nèi)伦吠。
KeyedStateCheckpointOutputStream 和 OperatorStateCheckpointOutputStream 分別需要記錄額外的狀態(tài)。KeyedStateCheckpointOutputStream 需要記錄每個(gè)keyGroup起始在流中的位置, OperatorStateCheckpointOutputStream 需要記錄每個(gè)partition起始在流中的位置, 這些信息都會(huì)體現(xiàn)在對(duì)應(yīng)的StreamStateHandle中.
todo!!!!
operatorStateBackend和keyedStateBackend的snapshot方法:
將stateBackend備份到用戶指定的文件系統(tǒng)倾芝。
snapshot方法是在接口SnapshotStrategy中定義讨勤,SnapshotStrategy的實(shí)現(xiàn)類如下: