1 概述
流計算系統(tǒng)中經(jīng)常需要與外部系統(tǒng)進(jìn)行交互导盅,我們通常的做法如向數(shù)據(jù)庫發(fā)送用戶a的查詢請求揍瑟,然后等待結(jié)果返回,在這之前滤馍,我們的程序無法發(fā)送用戶b的查詢請求底循。這是一種同步訪問方式,如下圖所示熙涤。
圖中棕色的長條表示等待時間祠挫,可以發(fā)現(xiàn)網(wǎng)絡(luò)等待時間極大地阻礙了吞吐和延遲。為了解決同步訪問的問題骚灸,異步模式可以并發(fā)地處理多個請求和回復(fù)慌植。也就是說,你可以連續(xù)地向數(shù)據(jù)庫發(fā)送用戶a丈钙、b交汤、c等的請求,與此同時,哪個請求的回復(fù)先返回了就處理哪個回復(fù)邀摆,從而連續(xù)的請求之間不需要阻塞等待伍茄,如上圖右邊所示。這也正是 Async I/O 的實現(xiàn)原理例获。
2 Async I/O原理實現(xiàn)
如下官方示例代碼:
AsyncDataStream.(un)orderedWait 的主要工作就是創(chuàng)建了一個 AsyncWaitOperator榨汤。AsyncWaitOperator 是支持異步 IO 訪問的算子實現(xiàn)怎茫,該算子會運行 AsyncFunction 并處理異步返回的結(jié)果,其內(nèi)部原理如下圖所示蜜宪。
如圖所示圃验,AsyncWaitOperator 主要由兩部分組成:StreamElementQueue 和 Emitter。StreamElementQueue 是一個 Promise 隊列澳窑,所謂 Promise 是一種異步抽象表示將來會有一個值供常,這個隊列是未完成的 Promise 隊列,也就是進(jìn)行中的請求隊列栗精。Emitter 是一個單獨的線程,負(fù)責(zé)發(fā)送消息(收到的異步回復(fù))給下游鹿寨。
圖中E5表示進(jìn)入該算子的第五個元素(”Element-5”),在執(zhí)行過程中首先會將其包裝成一個 “Promise” P5脚草,然后將P5放入隊列。最后調(diào)用 AsyncFunction 的 ayncInvoke 方法埂淮,該方法會向外部服務(wù)發(fā)起一個異步的請求倔撞,并注冊回調(diào)。該回調(diào)會在異步請求成功返回時調(diào)用 AsyncCollector.collect 方法將返回的結(jié)果交給框架處理痪蝇。實際上 AsyncCollector 是一個 Promise ,也就是 P5趁矾,在調(diào)用 collect 的時候會標(biāo)記 Promise 為完成狀態(tài)毫捣,并通知 Emitter 線程有完成的消息可以發(fā)送了帝际。Emitter 就會從隊列中拉取完成的 Promise ,并從 Promise 中取出消息發(fā)送給下游胡本。
3 消息順序性
3.1 有序
有序比較簡單,使用一個隊列就能實現(xiàn)珊佣。所有新進(jìn)入該算子的元素(包括 watermark)咒锻,都會包裝成 Promise 并按到達(dá)順序放入該隊列。如下圖所示惑艇,盡管P4的結(jié)果先返回拇泛,但并不會發(fā)送,只有 P1 (隊首)的結(jié)果返回了才會觸發(fā) Emitter 拉取隊首元素進(jìn)行發(fā)送恭取。
3.2 無序
使用兩個隊列就能實現(xiàn)熄守,一個 uncompletedQueue 一個 completedQueue耗跛。所有新進(jìn)入該算子的元素调塌,同樣的包裝成 Promise 并放入 uncompletedQueue 隊列,當(dāng)uncompletedQueue隊列中任意的Promise返回了數(shù)據(jù)羔砾,則將該 Promise 移到 completedQueue 隊列中蜒茄,并通知 Emitter 消費餐屎。如下圖所示:
References
1.https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/stream/operators/asyncio.html