Kafka 日志存儲呜师、清理規(guī)則、消息大小估算

kafka的日志:

kafka消息存儲在kafka集群中(分parition存儲贾节,每個partition對應(yīng)一個目錄汁汗。目錄名為{topicName}-{partitionId},kafka接收到的消息存放于此目錄下栗涂,包含log文件知牌,index文件,timeindex索引文件(0.10.1后的版本)

image
名字 含義 備注
00000000000009475939 文件中第一條消息的offset
*.log 存儲消息實體的文件
*.index 記錄消息的offset以及消息在log文件中的position的索引 稀疏存儲
*.timeindex 記錄消息的timestamp和offset的索引 稀疏存儲

kafka消息查看

使用kafka-run-class工具調(diào)用kafka.tools.DumpLogSegments,查看kafka消息落盤后信息斤程。 如下 :

/usr/hdp/current/kafka-broker/bin/kafka-run-class.sh kafka.tools.DumpLogSegments --deep-iteration --print-data-log --files ****.log(index,timeindex)

如:

image

日志/消息清理(delete)

kafka消息日志的清理邏輯是啟動線程定期掃描日志文件角寸,將符合清理規(guī)則的消息日志文件刪除。

  • 清理規(guī)則有兩種:
基于日志量大小的清理:當(dāng)消息日志總量大于設(shè)定的最大消息日志閾值時忿墅,刪除老舊日志以維持消息日志總量小于設(shè)定的閾值
基于日志修改時間的清理:time.millSeconds - _.lastModified > log.config.retentionMs 扁藕,清理該日志文件
  • 清理:
給文件加上后綴名.delete
異步刪除,等待一定時間后疚脐,將文件清理
清理時亿柑,會將統(tǒng)一名稱的日志和索引文件同時清理。

日志清理主要參數(shù)

線程 參數(shù)/名稱 默認(rèn)值
線程 kafka-log-retention
檢測周期 log.retention.check.interval.ms 5 * 60 * 1000L
保留時間閾值 retention.ms 7 * 24 * 60 * 60 * 1000L
日志量閾值大小 retention.bytes -1
kafka單個日志文件大小 log.segment.bytes 1024 * 1024 * 1024L
待刪除文件異步刪除棍弄,等待時間 file.delete.delay.ms 60000

由上圖可知望薄,kafka默認(rèn)的清理策略是基于文件修改時間戳的清理策略,默認(rèn)會保留七天的消息日志量呼畸,基于消息日志總量大小的清理規(guī)則不生效痕支。

在磁盤總量不足,消息量浮動較大的場景下并非最佳的日志清理策略(可能撐爆磁盤)蛮原,在該場景下卧须,可以考慮使用基于消息日志總量的清理策略。然后如何估算kafka消息的磁盤占用呢?

kafka消息大小估算:

發(fā)送一條消息(uncompressed) :

消息如下: 
    ab,1552981106583,testInput_20,ab_minus,1552981126583
在Log日志中:
    offset: 9475167 position: 8694 CreateTime: 1552981126583 isvalid: true payloadsize: 52 magic: 1 compresscodec: NoCompressionCodec crc: 3704994927 keysize: 9 key: Message_3 payload: ab,1552981106583,testInput_20,ab_minus,1552981126583
占用空間:
    110條消息占用磁盤10206byte故慈,單條消息約0.09k

如果是壓縮格式的消息板熊,可能不同的壓縮算法,不同的消息格式有較大差別察绷,需要實測估算

PS : 在存在多replica的常見下干签,還需要在此次評估基礎(chǔ)上乘以replica的副本數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市拆撼,隨后出現(xiàn)的幾起案子容劳,更是在濱河造成了極大的恐慌,老刑警劉巖闸度,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件竭贩,死亡現(xiàn)場離奇詭異,居然都是意外死亡莺禁,警方通過查閱死者的電腦和手機(jī)留量,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來哟冬,“玉大人楼熄,你說我怎么就攤上這事『葡浚” “怎么了可岂?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長翰灾。 經(jīng)常有香客問我缕粹,道長,這世上最難降的妖魔是什么纸淮? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任平斩,我火速辦了婚禮,結(jié)果婚禮上萎馅,老公的妹妹穿的比我還像新娘双戳。我一直安慰自己,他們只是感情好糜芳,可當(dāng)我...
    茶點故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布飒货。 她就那樣靜靜地躺著,像睡著了一般峭竣。 火紅的嫁衣襯著肌膚如雪塘辅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天皆撩,我揣著相機(jī)與錄音扣墩,去河邊找鬼哲银。 笑死,一個胖子當(dāng)著我的面吹牛呻惕,可吹牛的內(nèi)容都是我干的荆责。 我是一名探鬼主播,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼亚脆,長吁一口氣:“原來是場噩夢啊……” “哼做院!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起濒持,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤键耕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后柑营,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屈雄,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年官套,在試婚紗的時候發(fā)現(xiàn)自己被綠了酒奶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,769評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡虏杰,死狀恐怖讥蟆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纺阔,我是刑警寧澤,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布修然,位于F島的核電站笛钝,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏愕宋。R本人自食惡果不足惜玻靡,卻給世界環(huán)境...
    茶點故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望中贝。 院中可真熱鬧囤捻,春花似錦、人聲如沸邻寿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽绣否。三九已至誊涯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蒜撮,已是汗流浹背暴构。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人取逾。 一個月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓耗绿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親砾隅。 傳聞我的和親對象是個殘疾皇子误阻,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容