Apache Flink：基于 Reactive Mode 的 Flink 自動擴容

翻譯自 Apache Flink: Scaling Flink automatically with Reactive Mode

簡介

流式作業(yè)長時間運行過程中常常會經(jīng)歷不同流量負(fù)載的情況。流量負(fù)載會出現(xiàn)周期性的變化撤师，如：白天與晚上商玫、周末與工作日边酒、節(jié)假日與非節(jié)假日，這些波動可能是突發(fā)事件或是業(yè)務(wù)的自然增長。雖然這些波動有些是可預(yù)見的，但是如果想要在所有場景下保證相同的服務(wù)質(zhì)量休傍，那么就需要解決如何讓作業(yè)資源隨著需求的變化而動態(tài)調(diào)整。

一個簡單的衡量當(dāng)前所需資源與可用資源是否匹配的方法是：計算當(dāng)前負(fù)載與可用的 workers 數(shù)之間的面積尼夺。如下圖所示尊残，左圖中分配了固定的資源量，可用看到：實際負(fù)載與可用的 workers 之間有很大的差距 —— 因此造成了資源的浪費淤堵。右圖中展示了彈性資源分配的情況寝衫，紅線與黑線之間的距離在負(fù)載的變化中不斷的努力減小。

靜態(tài)資源分配 vs 彈性資源分配

多虧了 Flink 1.2 引入的可擴展?fàn)顟B(tài)（rescalable state）拐邪，我們可以手動對 Flink 作業(yè)擴/縮容慰毅，即可以通過調(diào)整并行度、重啟任務(wù)的方式來調(diào)整資源扎阶。例如汹胃，如果你的 Flink Job 當(dāng)前的并行度是 100，當(dāng)負(fù)載升高時可以上調(diào)并行度到 200 并重啟應(yīng)用來應(yīng)對負(fù)載的升高东臀。

這種方式的問題在于你需要手動的借助一些自研工具來進行資源的計算與評估着饥，并重新部署來進行合理的擴/縮容，不僅如此惰赋，這其中還可能包括一些異常的處理宰掉，以及對其他有相似情況的任務(wù)做同樣的工作。

Flink 1.13 引入的響應(yīng)模式（reactive mode）給你提供了另一種選擇：這種模式下你只需要監(jiān)控你的 Flink 集群赁濒，然后根據(jù)一些監(jiān)控指標(biāo)添加/移除相應(yīng)的資源轨奄，剩下的事情 Flink 會幫你完成。響應(yīng)式模式下 JobManager 會嘗試引入所有可用的 TaskManager 資源用于當(dāng)前的流數(shù)據(jù)處理拒炎。

響應(yīng)式模式的一個巨大優(yōu)勢在于你不再需要詳細(xì)的去了解 Flink 擴容相關(guān)知識就可以達到適應(yīng)性擴容的目的挪拟。基本上可以把 Flink 看做一個服務(wù)器集群（如同 web 服務(wù)器击你、緩存玉组、批處理），你可以根據(jù)所需進行擴/縮容丁侄。當(dāng)前自動擴容在業(yè)界已經(jīng)有非常成熟的方案球切，眾多基礎(chǔ)設(shè)施都提供相應(yīng)的支持：主流的云服務(wù)都提供相關(guān)的指標(biāo)監(jiān)控組件，并適應(yīng)性進行資源調(diào)整绒障。例如，AWS 基于 Auto Scaling groups 提供支持捍歪、Google Cloud 的 Managed Instance groups户辱。相應(yīng)的鸵钝，Kubernetes 提供了 Horizontal Pod Autoscalers。

不同于其他支持自動擴容“服務(wù)器集群”庐镐，F(xiàn)link 是一個包含狀態(tài)的系統(tǒng)恩商，通常需要處理重要的數(shù)據(jù)并保證強一致性（類似于數(shù)據(jù)庫）。但并不像傳統(tǒng)數(shù)據(jù)庫那樣必逆，F(xiàn)link 可以彈性的調(diào)整資源（基于 checkpoint 和狀態(tài)后端）來優(yōu)化當(dāng)前的集群負(fù)載怠堪，而且沒有太多的要求（如一個簡單的 blob 存儲用于狀態(tài)備份即可）。

開始使用

通過以下步驟你可以在本地的 Flink 1.13.0 版本中體驗一下響應(yīng)模式：

# These instructions assume you are in the root directory of a Flink distribution.

# Put Job into usrlib/ directory

mkdir usrlib

cp ./examples/streaming/TopSpeedWindowing.jar usrlib/

# Submit Job in Reactive Mode

./bin/standalone-job.sh start -Dscheduler-mode=reactive -Dexecution.checkpointing.interval="10s" -j org.apache.flink.streaming.examples.windowing.TopSpeedWindowing

# Start first TaskManager

./bin/taskmanager.sh start

你已經(jīng)開啟了一個基于響應(yīng)式模式的 Flink 任務(wù)名眉。你可以通過 Flink Web UI 查看到剛剛啟動的一個 TaskManager粟矿。如果想要擴容只需要簡單的添加另外一個 TaskManager 即可：

# Start additional TaskManager

./bin/taskmanager.sh start

To scale down, remove a TaskManager instance:

# Remove a TaskManager

./bin/taskmanager.sh stop

基于 Docker 或 standalone Kubernetes 部署的 Flink 集群都可以在響應(yīng)模式下部署任務(wù)（以上都需要基于 application 部署模式）

基于 Kubernetes 的示例

此章節(jié)，我們會演示一個真實場景中基于響應(yīng)模式部署的示例损拢。你可以將本示例作為自己部署自動擴容式集群的起點或模板陌粹。

操作流程

本示例的核心思路是基于 Kubernetes 的 Horizontal Pod Autoscaler，該組件會監(jiān)控所有 TaskManager pods 的 CPU 負(fù)載來相應(yīng)的調(diào)整副本因子（replication factor）福压。當(dāng) CPU 負(fù)載升高時掏秩，autoscaler 會增加 TaskManager 資源來平攤壓力；當(dāng)負(fù)載降低時荆姆，autoscaler 會減少 TaskManager 資源蒙幻。

整體的部署情況如下圖所示：

Kubernetes 部署圖

我們來逐一介紹一下：

Flink

JobManager 是基于 Kubernetes job 部署。提交的 container 是基于官方的 Flink Docker 鏡像胆筒，其中還包含了一個 Flink 任務(wù)的 jar 包邮破。該 Flink 任務(wù)會從 Kafka topic 中讀取數(shù)據(jù)，然后對讀取的事件進行復(fù)雜的數(shù)學(xué)運算腐泻。通過復(fù)雜的數(shù)學(xué)運算來使 CPU 負(fù)載升高。這種方式下派桩，我們不需要部署大型的 Kafka 集群就可以模擬高負(fù)載的場景构诚。
TaskManager 也基于 Kubernetes 部署，并通過 Horizontal Pod Autoscaler 進行擴容铆惑。本示例中范嘱，autoscaler 將會監(jiān)控 pods 的 CPU 負(fù)載。pods 的數(shù)量會在 1～15 之間調(diào)整员魏。

其他的組件：

我們部署了 Zookeeper 和 Kafka（各占用一個 pod）丑蛤，并創(chuàng)建了一個 topic 作為 Flink 任務(wù)的讀數(shù)據(jù)源。
還有一個數(shù)據(jù)生成器（Data Generator） 的 pod 來周期性的向 Kafka topic 中寫入 string 類型數(shù)據(jù)撕阎。在本示例中受裹，寫入速率的周期遵循正弦函數(shù)。
我們還部署了 Prometheus 和 Grafana 來用于監(jiān)控。

如果你想自己嘗試一下棉饶，以上都可以從 Github 中獲取厦章。

結(jié)果

我們將以上組件全部部署在了僅包含一臺主機的 Kubernetes 集群中，并運行了幾天照藻。以下的 Grafana 看板截圖中展示了這幾天運行的成果：

響應(yīng)模式實驗結(jié)果

讓我們更仔細(xì)的觀察一下這個監(jiān)控看板：

左上角圖中是 Kafka 消費延遲監(jiān)控袜啃，基于 Flink Kafka consumer（source 算子）上報的指標(biāo)。該看板用于監(jiān)控消費延遲的消息數(shù)幸缕。指標(biāo)升高表示 Flink消費速度低于 Kafka producer 生產(chǎn)速度群发，此時需要擴容。該看板也反映了 Kafka 的吞吐量发乔，最高的吞吐量約 75k熟妓，最小時為 0。
右上角看板表示 Flink 每秒吞吐量監(jiān)控列疗，基于 Flink 的 reports per second 指標(biāo)上報滑蚯。該指標(biāo)走向與正弦曲線大致相同，峰值約 6k/s抵栈，峰谷接近 0告材。
左下角的看板中展示了每個 TaskManager 的 CPU 負(fù)載監(jiān)控。Kubernetes pod autoscaler 會基于該指標(biāo)調(diào)整 TaskManager 的副本數(shù)量古劲〕飧常可以看到每當(dāng) CPU 負(fù)載到達某個值時 TaskManager 的數(shù)量就會隨之增加。
右下角圖中展示了 TaskManager 數(shù)量产艾。當(dāng)吞吐（或 CPU 負(fù)載）升高時疤剑，我們可以看到 TaskManager 數(shù)量增大到 5（部分峰值下漲到了 8 個），最小時為 1 個闷堡。該圖很好的展示了響應(yīng)模式的工作過程：TaskManager 數(shù)量隨著負(fù)載的變化而變化隘膘。

經(jīng)驗總結(jié)：將心跳超時配置降低能夠讓縮容更平順

在我們剛剛開啟實驗時，我們從圖標(biāo)中注意到一些 Flink 反常的表現(xiàn)：

響應(yīng)模式未能很好的縮容

上面所有圖中杠览，我們可以看到會有毛刺出現(xiàn)：消費延遲曲線會突然增大到 600k（是平時 75k 正常峰值的 8 倍）弯菊。在“TaskManager 數(shù)量”監(jiān)控看板中我們發(fā)現(xiàn) TaskManager 數(shù)量某些情況下并沒有很好的追隨吞吐量曲線的變化。導(dǎo)致我們浪費了大量配置的 TaskManager 資源踱阿。

我們還發(fā)現(xiàn)這種情況只有在負(fù)載降低時才會發(fā)生管钳，但是響應(yīng)模式也是支持縮容場景的。那到底是什么原因?qū)е旅坛霈F(xiàn)以及 TaskManager 縮容不及時的呢软舌？

在 Flink 中才漆，JobManager 會定期發(fā)送心跳信息給 TaskManager 來確定 TaskManager 是否還存活。默認(rèn)心跳的發(fā)送頻率是 50s 一次佛点。這個默認(rèn)值看上去像是很高醇滥，但是在高負(fù)載情況下可能出現(xiàn)網(wǎng)絡(luò)波動、gc 停滯或其他情況導(dǎo)致心跳數(shù)據(jù)發(fā)送延遲。我們不希望將短暫的中斷判斷成 TaskManager 徹底失聯(lián)腺办。

然而焰手，這個默認(rèn)值在本次實驗中帶來了問題：當(dāng) Kubernetes autoscaler 監(jiān)控到 CPU 負(fù)載降低時會降低 TaskManager 數(shù)量，停止 TaskManager 實例怀喉。隨之 Flink 會因為數(shù)據(jù)傳輸層（data transport layer）與這些 TaskManager 失聯(lián)而立即停止數(shù)據(jù)處理，而且 JobMaster 將會等待 50s 后才會認(rèn)定 TaskManager 真正被關(guān)閉了船响。

在 JobManager 等待期間吞吐量會降到 0躬拢，數(shù)據(jù)也會因此積壓在 Kafka 中（消費延遲看板出現(xiàn)毛刺的原因）。當(dāng) Flink 重新運行起來后會對積壓數(shù)據(jù)進行消費见间，從而造成了 CPU 負(fù)載的升高聊闯。autoscaler 監(jiān)控到負(fù)載變化后會分配更多的 TaskManager，因此造成了 TaskManager 的浪費米诉。

我們觀察發(fā)現(xiàn)這種情況只會發(fā)生在縮容的場景中菱蔬，因為縮容更加容易引起不穩(wěn)定的情況的發(fā)生相比于擴容。擴容時史侣，TaskManager 資源增加拴泌，數(shù)據(jù)停止處理僅發(fā)生在任務(wù)重啟階段（重啟動作很快，僅會造成 Kafka 少量數(shù)據(jù)積壓）惊橱；然而縮容時蚪腐，數(shù)據(jù)停止處理的時間大約 50s。

我們通過調(diào)整 heartbeat.timeout 為 8s 來緩解了以上問題的發(fā)生税朴。另外回季，我們期望后續(xù)社區(qū)能夠優(yōu)化 JobMaster 判斷 TaskManager 失聯(lián)的策略，能夠更好正林、更快的的處理失聯(lián)的場景泡一。

總結(jié)

本文中我們介紹了 Flink 響應(yīng)模式，這是 Flink 向動態(tài)資源規(guī)劃觅廓、提升資源利用率方向邁進的重要一步鼻忠。本文還演示了響應(yīng)模式在 Kubernetes 中的實踐，以及一些實踐經(jīng)驗的總結(jié)與學(xué)習(xí)哪亿。

響應(yīng)模式是 Flink 1.13 中的新特性被記錄在產(chǎn)品開發(fā)文檔的 MVP（Minimal Viable Product）章節(jié)粥烁。在使用之前你還需要認(rèn)真查看官方文檔中相關(guān)的使用限制。里面提到的最大限制是：只有在獨立應(yīng)用部署模式（standalone application mode）下才支持響應(yīng)模式（即蝇棉，不能在 active resource managers 部署模式或 session 部署模式中的集群使用）

社區(qū)非常期待大家針對這一特性的反饋讨阻，從而提升 Flink 彈性化資源管理能力。如何你有任何反饋請通過 Flink 開發(fā)者郵件列表告訴我們篡殷，或在 Twitter 里面 @ 我钝吮。

譯者：可可 @ 歡迎郵件聯(lián)系我

最后編輯于：2021.08.28 22:01:01

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子奇瘦，更是在濱河造成了極大的恐慌棘催，老刑警劉巖，帶你破解...
沈念sama閱讀 218,204評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件耳标，死亡現(xiàn)場離奇詭異醇坝，居然都是意外死亡，警方通過查閱死者的電腦和手機次坡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門呼猪，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人砸琅，你說我怎么就攤上這事宋距。” “怎么了症脂？”我有些...
開封第一講書人閱讀 164,548評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵谚赎，是天一觀的道長。經(jīng)常有香客問我诱篷，道長壶唤，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,657評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任兴蒸，我火速辦了婚禮视粮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘橙凳。我一直安慰自己蕾殴，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,689評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布岛啸。她就那樣靜靜地躺著钓觉，像睡著了一般。火紅的嫁衣襯著肌膚如雪坚踩。梳的紋絲不亂的頭發(fā)上荡灾，一...
開封第一講書人閱讀 51,554評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音瞬铸，去河邊找鬼批幌。笑死，一個胖子當(dāng)著我的面吹牛嗓节，可吹牛的內(nèi)容都是我干的荧缘。我是一名探鬼主播，決...
沈念sama閱讀 40,302評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼拦宣，長吁一口氣：“原來是場噩夢啊……” “哼截粗！你這毒婦竟也來了信姓？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,216評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤绸罗，失蹤者是張志新（化名）和其女友劉穎意推，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體珊蟀，經(jīng)...
沈念sama閱讀 45,661評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡菊值，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,851評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了系洛。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片俊性。...
茶點故事閱讀 39,977評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖描扯，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情趟薄，我是刑警寧澤绽诚，帶...
沈念sama閱讀 35,697評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站杭煎，受9級特大地震影響恩够，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜羡铲，卻給世界環(huán)境...
茶點故事閱讀 41,306評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一蜂桶、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧也切，春花似錦扑媚、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評論 0贊 22
一樁弒父案疆股，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至倒槐，卻和暖如春旬痹，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背讨越。一陣腳步聲響...
開封第一講書人閱讀 33,019評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工两残，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人把跨。一個月前我還...
沈念sama閱讀 48,138評論 3贊 370
代替公主和親
正文我出身青樓人弓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親节猿。傳聞我的和親對象是個殘疾皇子票从，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,927評論 2贊 355