Kafka學(xué)習(xí)筆記(二)架構(gòu)深入

1. Kafka工作流程及文件存儲(chǔ)機(jī)制

Xnip2020-07-08_15-48-17

Kafka中消息是以topic進(jìn)行分類(lèi)的,生產(chǎn)者生產(chǎn)消息懒震,消費(fèi)者消費(fèi)消息鳄厌,都是面向topic的。

topic是邏輯上的概念拼缝,而partition是物理上的概念娱局,每個(gè)partition對(duì)應(yīng)于一個(gè)log文件,該log文件中存儲(chǔ)的就是producer生產(chǎn)的數(shù)據(jù)咧七。Producer生產(chǎn)的數(shù)據(jù)會(huì)被不斷追加到該log文件末端衰齐,且每條數(shù)據(jù)都有自己的offset。消費(fèi)者組中的每個(gè)消費(fèi)者继阻,都會(huì)實(shí)時(shí)記錄自己消費(fèi)到了哪個(gè)offset耻涛,以便出錯(cuò)恢復(fù)時(shí),從上次的位置繼續(xù)消費(fèi)瘟檩。

Xnip2020-07-08_15-50-51

由于生產(chǎn)者生產(chǎn)的消息會(huì)不斷追加到log文件末尾抹缕,為防止log文件過(guò)大導(dǎo)致數(shù)據(jù)定位效率低下,Kafka采取了分片和索引機(jī)制墨辛,將每個(gè)partition分為多個(gè)segment卓研。每個(gè)segment對(duì)應(yīng)兩個(gè)文件——“.index”文件和“.log”文件。這些文件位于一個(gè)文件夾下背蟆,該文件夾的命名規(guī)則為:topic名稱(chēng)+分區(qū)序號(hào)鉴分。例如哮幢,first這個(gè)topic有三個(gè)分區(qū),則其對(duì)應(yīng)的文件夾為first-0,first-1,first-2志珍。

index和log文件以當(dāng)前segment的第一條消息的offset命名橙垢。下圖為index文件和log文件的結(jié)構(gòu)示意圖。

Xnip2020-07-08_15-51-41

“.index”文件存儲(chǔ)大量的索引信息伦糯,“.log”文件存儲(chǔ)大量的數(shù)據(jù)柜某,索引文件中的元數(shù)據(jù)指向?qū)?yīng)數(shù)據(jù)文件中message的物理偏移地址。

2. Kafka生產(chǎn)者

2.1 分區(qū)策略

分區(qū)的原因

(1)方便在集群中擴(kuò)展敛纲,每個(gè)Partition可以通過(guò)調(diào)整以適應(yīng)它所在的機(jī)器喂击,而一個(gè)topic又可以有多個(gè)Partition組成,因此整個(gè)集群就可以適應(yīng)任意大小的數(shù)據(jù)了淤翔;

(2)可以提高并發(fā)翰绊,因?yàn)榭梢砸訮artition為單位讀寫(xiě)了。

分區(qū)的原則

我們需要將producer發(fā)送的數(shù)據(jù)封裝成一個(gè)ProducerRecord對(duì)象旁壮。

image
  1. 指明 partition 的情況下监嗜,直接將指明的值直接作為 partiton 值;
  2. 沒(méi)有指明 partition 值但有 key 的情況下抡谐,將 key 的 hash 值與 topic 的 partition 數(shù)進(jìn)行取余得到 partition 值裁奇;
  3. 既沒(méi)有 partition 值又沒(méi)有 key 值的情況下,第一次調(diào)用時(shí)隨機(jī)生成一個(gè)整數(shù)(后面每次調(diào)用在這個(gè)整數(shù)上自增)麦撵,將這個(gè)值與 topic 可用的 partition 總數(shù)取余得到 partition 值刽肠,也就是常說(shuō)的 round-robin 算法。

2.2 數(shù)據(jù)可靠性保證

為保證producer發(fā)送的數(shù)據(jù)免胃,能可靠的發(fā)送到指定的topic音五,topic的每個(gè)partition收到producer發(fā)送的數(shù)據(jù)后,都需要向producer發(fā)送ack(acknowledgement確認(rèn)收到)羔沙,如果producer收到ack放仗,就會(huì)進(jìn)行下一輪的發(fā)送,否則重新發(fā)送數(shù)據(jù)撬碟。

Xnip2020-07-08_15-58-21

2.2.1 副本數(shù)據(jù)同步策略

方案 優(yōu)點(diǎn) 缺點(diǎn)
半數(shù)以上完成同步,就發(fā)送ack 延遲低 選舉新的leader時(shí)莉撇,容忍n臺(tái)節(jié)點(diǎn)的故障呢蛤,需要2n+1個(gè)副本
全部完成同步,才發(fā)送ack 選舉新的leader時(shí)棍郎,容忍n臺(tái)節(jié)點(diǎn)的故障其障,需要n+1個(gè)副本 延遲高

Kafka選擇了第二種方案,原因如下:

  1. 同樣為了容忍n臺(tái)節(jié)點(diǎn)的故障涂佃,第一種方案需要2n+1個(gè)副本励翼,而第二種方案只需要n+1個(gè)副本蜈敢,而Kafka的每個(gè)分區(qū)都有大量的數(shù)據(jù),第一種方案會(huì)造成大量數(shù)據(jù)的冗余汽抚。
  2. 雖然第二種方案的網(wǎng)絡(luò)延遲會(huì)比較高抓狭,但網(wǎng)絡(luò)延遲對(duì)Kafka的影響較小。

2.2.2 ISR

采用第二種方案之后造烁,設(shè)想以下情景:leader收到數(shù)據(jù)否过,所有follower都開(kāi)始同步數(shù)據(jù),但有一個(gè)follower惭蟋,因?yàn)槟撤N故障苗桂,遲遲不能與leader進(jìn)行同步,那leader就要一直等下去告组,直到它完成同步煤伟,才能發(fā)送ack。這個(gè)問(wèn)題怎么解決呢木缝?

Leader維護(hù)了一個(gè)動(dòng)態(tài)的in-sync replica set (ISR)便锨,意為和leader保持同步的follower集合。當(dāng)ISR中的follower完成數(shù)據(jù)的同步之后氨肌,leader就會(huì)給follower發(fā)送ack鸿秆。如果follower長(zhǎng)時(shí)間未向leader同步數(shù)據(jù),則該follower將被踢出ISR怎囚,該時(shí)間閾值由replica.lag.time.max.ms參數(shù)設(shè)定卿叽。Leader發(fā)生故障之后,就會(huì)從ISR中選舉新的leader恳守。

2.2.3 ack應(yīng)答機(jī)制

對(duì)于某些不太重要的數(shù)據(jù)考婴,對(duì)數(shù)據(jù)的可靠性要求不是很高,能夠容忍數(shù)據(jù)的少量丟失催烘,所以沒(méi)必要等ISR中的follower全部接收成功沥阱。

所以Kafka為用戶(hù)提供了三種可靠性級(jí)別,用戶(hù)根據(jù)對(duì)可靠性和延遲的要求進(jìn)行權(quán)衡伊群,選擇以下的配置考杉。

acks參數(shù)配置:acks:

  • 0:producer不等待broker的ack,這一操作提供了一個(gè)最低的延遲舰始,broker一接收到還沒(méi)有寫(xiě)入磁盤(pán)就已經(jīng)返回崇棠,當(dāng)broker故障時(shí)有可能丟失數(shù)據(jù);
  • producer等待broker的ack丸卷,partition的leader落盤(pán)成功后返回ack枕稀,如果在follower同步成功之前l(fā)eader故障,那么將會(huì)丟失數(shù)據(jù);
  • -1(all):producer等待broker的ack萎坷,partition的leader和follower全部落盤(pán)成功后才返回ack凹联。但是如果在follower同步完成后,broker發(fā)送ack之前哆档,leader發(fā)生故障蔽挠,那么會(huì)造成數(shù)據(jù)重復(fù)。
Xnip2020-07-08_16-03-43
Xnip2020-07-08_16-04-11

2.2.4 故障處理細(xì)節(jié)

Xnip2020-07-08_16-06-34
  1. follower故障
    1. follower發(fā)生故障后會(huì)被臨時(shí)踢出ISR虐呻,待該follower恢復(fù)后象泵,follower會(huì)讀取本地磁盤(pán)記錄的上次的HW,并將log文件高于HW的部分截取掉斟叼,從HW開(kāi)始向leader進(jìn)行同步偶惠。等該follower的LEO大于等于該P(yáng)artition的HW,即follower追上leader之后朗涩,就可以重新加入ISR了忽孽。
  2. leader故
    1. leader發(fā)生故障之后,會(huì)從ISR中選出一個(gè)新的leader谢床,之后兄一,為保證多個(gè)副本之間的數(shù)據(jù)一致性,其余的follower會(huì)先將各自的log文件高于HW的部分截掉识腿,然后從新的leader同步數(shù)據(jù)出革。

3. Kafka消費(fèi)者

3.1 消費(fèi)方式

consumer采用pull(拉)模式從broker中讀取數(shù)據(jù)。

push(推)模式很難適應(yīng)消費(fèi)速率不同的消費(fèi)者渡讼,因?yàn)橄l(fā)送速率是由broker決定的骂束。它的目標(biāo)是盡可能以最快速度傳遞消息,但是這樣很容易造成consumer來(lái)不及處理消息成箫,典型的表現(xiàn)就是拒絕服務(wù)以及網(wǎng)絡(luò)擁塞展箱。而pull模式則可以根據(jù)consumer的消費(fèi)能力以適當(dāng)?shù)乃俾氏M(fèi)消息。

pull模式不足之處是蹬昌,如果kafka沒(méi)有數(shù)據(jù)混驰,消費(fèi)者可能會(huì)陷入循環(huán)中,一直返回空數(shù)據(jù)皂贩。針對(duì)這一點(diǎn)栖榨,Kafka的消費(fèi)者在消費(fèi)數(shù)據(jù)時(shí)會(huì)傳入一個(gè)時(shí)長(zhǎng)參數(shù)timeout,如果當(dāng)前沒(méi)有數(shù)據(jù)可供消費(fèi)明刷,consumer會(huì)等待一段時(shí)間之后再返回治泥,這段時(shí)長(zhǎng)即為timeout。

3.2 分區(qū)分配策略

一個(gè)consumer group中有多個(gè)consumer遮精,一個(gè) topic有多個(gè)partition,所以必然會(huì)涉及到partition的分配問(wèn)題,即確定那個(gè)partition由哪個(gè)consumer來(lái)消費(fèi)本冲。

Kafka有兩種分配策略准脂,一是roundrobin,一是range檬洞。

roundrobin : 輪詢(xún)機(jī)制狸膏,動(dòng)態(tài)平均分配
range: 固定等額分配,容易產(chǎn)生分配不均

3.3 offset的維護(hù)

由于consumer在消費(fèi)過(guò)程中可能會(huì)出現(xiàn)斷電宕機(jī)等故障添怔,consumer恢復(fù)后湾戳,需要從故障前的位置的繼續(xù)消費(fèi),所以consumer需要實(shí)時(shí)記錄自己消費(fèi)到了哪個(gè)offset广料,以便故障恢復(fù)后繼續(xù)消費(fèi)砾脑。

Kafka 0.9版本之前,consumer默認(rèn)將offset保存在Zookeeper中艾杏,從0.9版本開(kāi)始韧衣,consumer默認(rèn)將offset保存在Kafka一個(gè)內(nèi)置的topic中,該topic為_(kāi)_consumer_offsets购桑。

3.4 Kafka 高效讀寫(xiě)數(shù)據(jù)

3.4.1 順序?qū)懘疟P(pán)

Kafka的producer生產(chǎn)數(shù)據(jù)畅铭,要寫(xiě)入到log文件中,寫(xiě)的過(guò)程是一直追加到文件末端勃蜘,為順序?qū)懰敦9倬W(wǎng)有數(shù)據(jù)表明,同樣的磁盤(pán)缭贡,順序?qū)懩艿降?00M/s炉擅,而隨機(jī)寫(xiě)只有100k/s。這與磁盤(pán)的機(jī)械機(jī)構(gòu)有關(guān)匀归,順序?qū)懼钥炜幼剩且驗(yàn)槠涫∪チ舜罅看蓬^尋址的時(shí)間。

3.4.2 零復(fù)制技術(shù)

Xnip2020-07-08_16-13-02

免去了對(duì)用戶(hù)端的讀寫(xiě)流程穆端。

3.5 Zookeeper在Kafka中的作用

Kafka集群中有一個(gè)broker會(huì)被選舉為Controller袱贮,負(fù)責(zé)管理集群broker的上下線,所有topic的分區(qū)副本分配和leader選舉等工作体啰。

Controller的管理工作都是依賴(lài)于Zookeeper的攒巍。

以下為partition的leader選舉過(guò)程:


Xnip2020-07-08_16-14-17
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市荒勇,隨后出現(xiàn)的幾起案子柒莉,更是在濱河造成了極大的恐慌,老刑警劉巖沽翔,帶你破解...
    沈念sama閱讀 218,640評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件兢孝,死亡現(xiàn)場(chǎng)離奇詭異窿凤,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)跨蟹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)雳殊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人窗轩,你說(shuō)我怎么就攤上這事夯秃。” “怎么了痢艺?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,011評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵仓洼,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我堤舒,道長(zhǎng)色建,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,755評(píng)論 1 294
  • 正文 為了忘掉前任植酥,我火速辦了婚禮镀岛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘友驮。我一直安慰自己漂羊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,774評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布卸留。 她就那樣靜靜地躺著走越,像睡著了一般。 火紅的嫁衣襯著肌膚如雪耻瑟。 梳的紋絲不亂的頭發(fā)上旨指,一...
    開(kāi)封第一講書(shū)人閱讀 51,610評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音喳整,去河邊找鬼谆构。 笑死,一個(gè)胖子當(dāng)著我的面吹牛框都,可吹牛的內(nèi)容都是我干的搬素。 我是一名探鬼主播,決...
    沈念sama閱讀 40,352評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼魏保,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼熬尺!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起谓罗,我...
    開(kāi)封第一講書(shū)人閱讀 39,257評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤粱哼,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后檩咱,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體揭措,經(jīng)...
    沈念sama閱讀 45,717評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胯舷,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,894評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了绊含。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片需纳。...
    茶點(diǎn)故事閱讀 40,021評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖艺挪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情兵扬,我是刑警寧澤麻裳,帶...
    沈念sama閱讀 35,735評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站器钟,受9級(jí)特大地震影響津坑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜傲霸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,354評(píng)論 3 330
  • 文/蒙蒙 一疆瑰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧昙啄,春花似錦穆役、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,936評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至韧拒,卻和暖如春淹接,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背叛溢。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,054評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工塑悼, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人楷掉。 一個(gè)月前我還...
    沈念sama閱讀 48,224評(píng)論 3 371
  • 正文 我出身青樓厢蒜,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親靖诗。 傳聞我的和親對(duì)象是個(gè)殘疾皇子郭怪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,974評(píng)論 2 355