【flink】flink狀態(tài)后端配置-設置State Backend

一忽肛、前言

????????flink提供不同的狀態(tài)后端(state backends)來區(qū)分狀態(tài)的存儲方式和存儲位置撬讽。flink狀態(tài)可以存儲在java堆內存內或者內存之外诉植。通過狀態(tài)后端的設置疫稿,flink允許應用保持大容量的狀態(tài)鸵隧。開發(fā)者可以在不改變應用邏輯的情況下設置狀態(tài)后端张弛。
???????? 默認情況下荒典,flink的狀態(tài)會保存在taskmanager的內存中宗挥,而checkpoint會保存在jobManager的內存中。

二种蝶、可用的State Backend

flink提供三種開箱即用的State Backend:

  • MemoryStateBackend
  • FsStateBackend
  • RocksDBStateBackend

如果沒有配置契耿,則默認使用MemoryStateBackend。

2.1 MemoryStateBackend

????????MemoryStateBackend內部將狀態(tài)(state)數據作為對象保存在java堆內存中(taskManager)螃征,通過checkpoint機制搪桂,MemoryStateBackend將狀態(tài)(state)進行快照并保存Jobmanager(master)的堆內存中。

????????MemoryStateBackend可以通過配置來使用異步快照(asynchronous snapshots)盯滚。通過異步快照可以避免阻塞管道(blocking pipelines)踢械,目前是默認開啟,當然也可以通過MemoryStateBackend的構造函數配置進行關閉:

new MemoryStateBackend(MAX_MEM_STATE_SIZE, false);

MemoryStateBackend的限制:

  • 每個獨立的狀態(tài)(state)默認限制大小為5MB魄藕, 可以通過構造函數增加容量内列;
  • 狀態(tài)的大小不能超過akka的framesize大小。參考:配置 背率;
  • 聚合狀態(tài)(aggregate state )必須放入JobManager的內存话瞧。

MemoryStateBackend的適用場景:

  • 本地調試
  • flink任務狀態(tài)數據量較小的場景

2.2 FsStateBackend

????????FsStateBackend通過配置文件系統(tǒng)路徑(type, address, path)來進行設置,例如:“hdfs://namenode:40010/flink/checkpoints” 或者 “file:///data/flink/checkpoints”.
????????FsStateBackend將動態(tài)數據保存在taskmanger的內存中寝姿,通過checkpoint機制交排,將狀態(tài)快照寫入配置好的文件系統(tǒng)或目錄中。最小元數據保存jobManager的內存中饵筑,另外FsStateBackend通過配置一個fileStateThreshold閾值埃篓,小于該值時state存儲到metadata中而非文件中。

???????? FsStateBackend默認通過配置來使用異步快照(asynchronous snapshots)避免阻塞管道(blocking pipelines)根资,當然也可以通過FsStateBackend的構造函數配置進行關閉:

new FsStateBackend(path, false);

FsStateBackend適用場景:

  • 大狀態(tài)架专、長窗口、大key/value狀態(tài)的的任務
  • 全高可用配置

2.3 RocksDBStateBackend

如果使用java代碼進行單任務配置玄帕,使用前先加入依賴:

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-statebackend-rocksdb_${scala.binary.version}</artifactId>
            <version>1.8.0</version>
        </dependency>

????????RocksDBStateBackend也通過配置文件系統(tǒng)路徑來配置部脚,例如:“hdfs://namenode:40010/flink/checkpoints” 或者 “file:///data/flink/checkpoints”,RocksDBStateBackend內部默認會構造一個FsStateBackend來初始化checkpointStreamBackend屬性桨仿,在實現(xiàn)StateBackend接口的resolveCheckpoint和createCheckpointStorage方法時實際上調用checkpointStreamBackend的相關方法來實現(xiàn):

    @Override
    public CompletedCheckpointStorageLocation resolveCheckpoint(String pointer) throws IOException {
        return checkpointStreamBackend.resolveCheckpoint(pointer);
    }

    @Override
    public CheckpointStorage createCheckpointStorage(JobID jobId) throws IOException {
        return checkpointStreamBackend.createCheckpointStorage(jobId);
    }

????????RocksDBStateBackend將工作狀態(tài)保存在RocksDB數據庫(位置在taskManagerd的數據目錄)睛低。通過checkpoint, 整個RocksDB數據庫被復制到配置的文件系統(tǒng)或目錄中。最小元數據保存jobManager的內存中服傍。RocksDBStateBackend可以通過enableIncrementalCheckpointing參數配置是否進行增量Checkpoint(而MemoryStateBackend 和 FsStateBackend不能)。

????????跟FsStateBackend 不同的是骂铁,RocksDBStateBackend僅支持異步快照(asynchronous snapshots)吹零。

RocksDBStateBackend適用場景:

  • 大狀態(tài)、長窗口拉庵、大key/value狀態(tài)的的任務
  • 全高可用配置
    由于RocksDBStateBackend將工作狀態(tài)存儲在taskManger的本地文件系統(tǒng)灿椅,狀態(tài)數量僅僅受限于本地磁盤容量限制,對比于FsStateBackend保存工作狀態(tài)在內存中,RocksDBStateBackend能避免flink任務持續(xù)運行可能導致的狀態(tài)數量暴增而內存不足的情況茫蛹,因此適合在生產環(huán)境使用操刀。

三、配置方式

  1. 全局配置
    flink可以通過flink-conf.yaml 配置原因全局配置state backend婴洼。
    使用 state.backend 選項進行state backend類型配置:可選值包括: jobmanager (MemoryStateBackend), filesystem (FsStateBackend), rocksdb (RocksDBStateBackend)骨坑。
    使用state.checkpoints.dir選項設置checkpoints數據和元數據文件。

一個簡單的配置形式如下:

# The backend that will be used to store operator state checkpoints
state.backend: filesystem
# Directory for storing checkpoints
state.checkpoints.dir: hdfs://namenode:40010/flink/checkpoints

RocksDBStateBackend配置選項:

Key Default Description
state.backend.rocksdb.checkpoint.transfer.thread.num 1 The number of threads used to transfer (download and upload) files in RocksDBStateBackend.
state.backend.rocksdb.localdir (none) The local directory (on the TaskManager) where RocksDB puts its files.
state.backend.rocksdb.options-factory "org.apache.flink.contrib.streaming.state.DefaultConfigurableOptionsFactory" The options factory class for RocksDB to create DBOptions and ColumnFamilyOptions. The default options factory is org.apache.flink.contrib.streaming.state.DefaultConfigurableOptionsFactory, and it would read the configured options which provided in 'RocksDBConfigurableOptions'.
state.backend.rocksdb.predefined-options "DEFAULT" The predefined settings for RocksDB DBOptions and ColumnFamilyOptions by Flink community. Current supported candidate predefined-options are DEFAULT, SPINNING_DISK_OPTIMIZED, SPINNING_DISK_OPTIMIZED_HIGH_MEM or FLASH_SSD_OPTIMIZED. Note that user customized options and options from the OptionsFactory are applied on top of these predefined ones.
state.backend.rocksdb.timer-service.factory "HEAP" This determines the factory for timer service state implementation. Options are either HEAP (heap-based, default) or ROCKSDB for an implementation based on RocksDB .
state.backend.rocksdb.ttl.compaction.filter.enabled false This determines if compaction filter to cleanup state with TTL is enabled for backend.Note: User can still decide in state TTL configuration in state descriptor whether the filter is active for particular state or not.
  1. 單任務配置
    ????????通過在單個flink任務中通過env.setStateBackend(...)單獨調整state backend配置柬采,這種方式會覆蓋全局配置欢唾。例如:
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStateBackend(new FsStateBackend("hdfs://namenode:40010/flink/checkpoints"));

四、總結

????????本文介紹了flink狀態(tài)后端的三種配置方式和區(qū)別粉捻,并介紹了狀態(tài)后端的配置方法礁遣。在生產環(huán)境中,對于大狀態(tài)量應用肩刃,推薦使用RocksDBStateBackend進行狀態(tài)后端配置祟霍,以應對可能存在的內存不足情況。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末盈包,一起剝皮案震驚了整個濱河市浅碾,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌续语,老刑警劉巖垂谢,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異疮茄,居然都是意外死亡滥朱,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門力试,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徙邻,“玉大人,你說我怎么就攤上這事畸裳$掷纾” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵怖糊,是天一觀的道長帅容。 經常有香客問我,道長伍伤,這世上最難降的妖魔是什么并徘? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮扰魂,結果婚禮上麦乞,老公的妹妹穿的比我還像新娘蕴茴。我一直安慰自己,他們只是感情好姐直,可當我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布倦淀。 她就那樣靜靜地躺著,像睡著了一般声畏。 火紅的嫁衣襯著肌膚如雪撞叽。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天砰识,我揣著相機與錄音能扒,去河邊找鬼。 笑死辫狼,一個胖子當著我的面吹牛初斑,可吹牛的內容都是我干的。 我是一名探鬼主播膨处,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼见秤,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了真椿?” 一聲冷哼從身側響起鹃答,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎突硝,沒想到半個月后测摔,有當地人在樹林里發(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡解恰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年锋八,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片护盈。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡挟纱,死狀恐怖,靈堂內的尸體忽然破棺而出腐宋,到底是詐尸還是另有隱情紊服,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布胸竞,位于F島的核電站欺嗤,受9級特大地震影響,放射性物質發(fā)生泄漏撤师。R本人自食惡果不足惜剂府,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望剃盾。 院中可真熱鬧腺占,春花似錦、人聲如沸痒谴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽积蔚。三九已至意鲸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間尽爆,已是汗流浹背怎顾。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留漱贱,地道東北人槐雾。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像幅狮,于是被迫代替她去往敵國和親募强。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,762評論 2 345