Kafka學(xué)習(xí)筆記（二）架構(gòu)深入

1. Kafka工作流程及文件存儲(chǔ)機(jī)制

Xnip2020-07-08_15-48-17

Kafka中消息是以topic進(jìn)行分類(lèi)的，生產(chǎn)者生產(chǎn)消息懒震，消費(fèi)者消費(fèi)消息鳄厌，都是面向topic的。

topic是邏輯上的概念拼缝，而partition是物理上的概念娱局，每個(gè)partition對(duì)應(yīng)于一個(gè)log文件，該log文件中存儲(chǔ)的就是producer生產(chǎn)的數(shù)據(jù)咧七。Producer生產(chǎn)的數(shù)據(jù)會(huì)被不斷追加到該log文件末端衰齐，且每條數(shù)據(jù)都有自己的offset。消費(fèi)者組中的每個(gè)消費(fèi)者继阻，都會(huì)實(shí)時(shí)記錄自己消費(fèi)到了哪個(gè)offset耻涛，以便出錯(cuò)恢復(fù)時(shí)，從上次的位置繼續(xù)消費(fèi)瘟檩。

Xnip2020-07-08_15-50-51

由于生產(chǎn)者生產(chǎn)的消息會(huì)不斷追加到log文件末尾抹缕，為防止log文件過(guò)大導(dǎo)致數(shù)據(jù)定位效率低下，Kafka采取了分片和索引機(jī)制墨辛，將每個(gè)partition分為多個(gè)segment卓研。每個(gè)segment對(duì)應(yīng)兩個(gè)文件——“.index”文件和“.log”文件。這些文件位于一個(gè)文件夾下背蟆，該文件夾的命名規(guī)則為：topic名稱(chēng)+分區(qū)序號(hào)鉴分。例如哮幢，first這個(gè)topic有三個(gè)分區(qū)，則其對(duì)應(yīng)的文件夾為first-0,first-1,first-2志珍。

index和log文件以當(dāng)前segment的第一條消息的offset命名橙垢。下圖為index文件和log文件的結(jié)構(gòu)示意圖。

Xnip2020-07-08_15-51-41

“.index”文件存儲(chǔ)大量的索引信息伦糯，“.log”文件存儲(chǔ)大量的數(shù)據(jù)柜某，索引文件中的元數(shù)據(jù)指向?qū)?yīng)數(shù)據(jù)文件中message的物理偏移地址。

2. Kafka生產(chǎn)者

2.1 分區(qū)策略

分區(qū)的原因

（1）方便在集群中擴(kuò)展敛纲，每個(gè)Partition可以通過(guò)調(diào)整以適應(yīng)它所在的機(jī)器喂击，而一個(gè)topic又可以有多個(gè)Partition組成，因此整個(gè)集群就可以適應(yīng)任意大小的數(shù)據(jù)了淤翔；

（2）可以提高并發(fā)翰绊，因?yàn)榭梢砸訮artition為單位讀寫(xiě)了。

分區(qū)的原則

我們需要將producer發(fā)送的數(shù)據(jù)封裝成一個(gè)ProducerRecord對(duì)象旁壮。

image

指明 partition 的情況下监嗜，直接將指明的值直接作為 partiton 值；
沒(méi)有指明 partition 值但有 key 的情況下抡谐，將 key 的 hash 值與 topic 的 partition 數(shù)進(jìn)行取余得到 partition 值裁奇；
既沒(méi)有 partition 值又沒(méi)有 key 值的情況下，第一次調(diào)用時(shí)隨機(jī)生成一個(gè)整數(shù)（后面每次調(diào)用在這個(gè)整數(shù)上自增）麦撵，將這個(gè)值與 topic 可用的 partition 總數(shù)取余得到 partition 值刽肠，也就是常說(shuō)的 round-robin 算法。

2.2 數(shù)據(jù)可靠性保證

為保證producer發(fā)送的數(shù)據(jù)免胃，能可靠的發(fā)送到指定的topic音五，topic的每個(gè)partition收到producer發(fā)送的數(shù)據(jù)后，都需要向producer發(fā)送ack（acknowledgement確認(rèn)收到）羔沙，如果producer收到ack放仗，就會(huì)進(jìn)行下一輪的發(fā)送，否則重新發(fā)送數(shù)據(jù)撬碟。

Xnip2020-07-08_15-58-21

2.2.1 副本數(shù)據(jù)同步策略

方案	優(yōu)點(diǎn)	缺點(diǎn)
半數(shù)以上完成同步，就發(fā)送ack	延遲低	選舉新的leader時(shí)莉撇，容忍n臺(tái)節(jié)點(diǎn)的故障呢蛤，需要2n+1個(gè)副本
全部完成同步，才發(fā)送ack	選舉新的leader時(shí)棍郎，容忍n臺(tái)節(jié)點(diǎn)的故障其障，需要n+1個(gè)副本	延遲高

Kafka選擇了第二種方案，原因如下：

同樣為了容忍n臺(tái)節(jié)點(diǎn)的故障涂佃，第一種方案需要2n+1個(gè)副本励翼，而第二種方案只需要n+1個(gè)副本蜈敢，而Kafka的每個(gè)分區(qū)都有大量的數(shù)據(jù)，第一種方案會(huì)造成大量數(shù)據(jù)的冗余汽抚。
雖然第二種方案的網(wǎng)絡(luò)延遲會(huì)比較高抓狭，但網(wǎng)絡(luò)延遲對(duì)Kafka的影響較小。

2.2.2 ISR

采用第二種方案之后造烁，設(shè)想以下情景：leader收到數(shù)據(jù)否过，所有follower都開(kāi)始同步數(shù)據(jù)，但有一個(gè)follower惭蟋，因?yàn)槟撤N故障苗桂，遲遲不能與leader進(jìn)行同步，那leader就要一直等下去告组，直到它完成同步煤伟，才能發(fā)送ack。這個(gè)問(wèn)題怎么解決呢木缝？

Leader維護(hù)了一個(gè)動(dòng)態(tài)的in-sync replica set (ISR)便锨，意為和leader保持同步的follower集合。當(dāng)ISR中的follower完成數(shù)據(jù)的同步之后氨肌，leader就會(huì)給follower發(fā)送ack鸿秆。如果follower長(zhǎng)時(shí)間未向leader同步數(shù)據(jù)，則該follower將被踢出ISR怎囚，該時(shí)間閾值由replica.lag.time.max.ms參數(shù)設(shè)定卿叽。Leader發(fā)生故障之后，就會(huì)從ISR中選舉新的leader恳守。

2.2.3 ack應(yīng)答機(jī)制

對(duì)于某些不太重要的數(shù)據(jù)考婴，對(duì)數(shù)據(jù)的可靠性要求不是很高，能夠容忍數(shù)據(jù)的少量丟失催烘，所以沒(méi)必要等ISR中的follower全部接收成功沥阱。

所以Kafka為用戶(hù)提供了三種可靠性級(jí)別，用戶(hù)根據(jù)對(duì)可靠性和延遲的要求進(jìn)行權(quán)衡伊群，選擇以下的配置考杉。

acks參數(shù)配置：acks：

0：producer不等待broker的ack，這一操作提供了一個(gè)最低的延遲舰始，broker一接收到還沒(méi)有寫(xiě)入磁盤(pán)就已經(jīng)返回崇棠，當(dāng)broker故障時(shí)有可能丟失數(shù)據(jù)；
producer等待broker的ack丸卷，partition的leader落盤(pán)成功后返回ack枕稀，如果在follower同步成功之前l(fā)eader故障，那么將會(huì)丟失數(shù)據(jù)；
-1（all）：producer等待broker的ack萎坷，partition的leader和follower全部落盤(pán)成功后才返回ack凹联。但是如果在follower同步完成后，broker發(fā)送ack之前哆档，leader發(fā)生故障蔽挠，那么會(huì)造成數(shù)據(jù)重復(fù)。

Xnip2020-07-08_16-03-43

Xnip2020-07-08_16-04-11

2.2.4 故障處理細(xì)節(jié)

Xnip2020-07-08_16-06-34

follower故障
1. follower發(fā)生故障后會(huì)被臨時(shí)踢出ISR虐呻，待該follower恢復(fù)后象泵，follower會(huì)讀取本地磁盤(pán)記錄的上次的HW，并將log文件高于HW的部分截取掉斟叼，從HW開(kāi)始向leader進(jìn)行同步偶惠。等該follower的LEO大于等于該P(yáng)artition的HW，即follower追上leader之后朗涩，就可以重新加入ISR了忽孽。
leader故
1. leader發(fā)生故障之后，會(huì)從ISR中選出一個(gè)新的leader谢床，之后兄一，為保證多個(gè)副本之間的數(shù)據(jù)一致性，其余的follower會(huì)先將各自的log文件高于HW的部分截掉识腿，然后從新的leader同步數(shù)據(jù)出革。

3. Kafka消費(fèi)者

3.1 消費(fèi)方式

consumer采用pull（拉）模式從broker中讀取數(shù)據(jù)。

push（推）模式很難適應(yīng)消費(fèi)速率不同的消費(fèi)者渡讼，因?yàn)橄l(fā)送速率是由broker決定的骂束。它的目標(biāo)是盡可能以最快速度傳遞消息，但是這樣很容易造成consumer來(lái)不及處理消息成箫，典型的表現(xiàn)就是拒絕服務(wù)以及網(wǎng)絡(luò)擁塞展箱。而pull模式則可以根據(jù)consumer的消費(fèi)能力以適當(dāng)?shù)乃俾氏M(fèi)消息。

pull模式不足之處是蹬昌，如果kafka沒(méi)有數(shù)據(jù)混驰，消費(fèi)者可能會(huì)陷入循環(huán)中，一直返回空數(shù)據(jù)皂贩。針對(duì)這一點(diǎn)栖榨，Kafka的消費(fèi)者在消費(fèi)數(shù)據(jù)時(shí)會(huì)傳入一個(gè)時(shí)長(zhǎng)參數(shù)timeout，如果當(dāng)前沒(méi)有數(shù)據(jù)可供消費(fèi)明刷，consumer會(huì)等待一段時(shí)間之后再返回治泥，這段時(shí)長(zhǎng)即為timeout。

3.2 分區(qū)分配策略

一個(gè)consumer group中有多個(gè)consumer遮精，一個(gè) topic有多個(gè)partition，所以必然會(huì)涉及到partition的分配問(wèn)題，即確定那個(gè)partition由哪個(gè)consumer來(lái)消費(fèi)本冲。

Kafka有兩種分配策略准脂，一是roundrobin，一是range檬洞。

roundrobin : 輪詢(xún)機(jī)制狸膏，動(dòng)態(tài)平均分配
range: 固定等額分配，容易產(chǎn)生分配不均

3.3 offset的維護(hù)

由于consumer在消費(fèi)過(guò)程中可能會(huì)出現(xiàn)斷電宕機(jī)等故障添怔，consumer恢復(fù)后湾戳，需要從故障前的位置的繼續(xù)消費(fèi)，所以consumer需要實(shí)時(shí)記錄自己消費(fèi)到了哪個(gè)offset广料，以便故障恢復(fù)后繼續(xù)消費(fèi)砾脑。

Kafka 0.9版本之前，consumer默認(rèn)將offset保存在Zookeeper中艾杏，從0.9版本開(kāi)始韧衣，consumer默認(rèn)將offset保存在Kafka一個(gè)內(nèi)置的topic中，該topic為_(kāi)_consumer_offsets购桑。

3.4 Kafka 高效讀寫(xiě)數(shù)據(jù)

3.4.1 順序?qū)懘疟P(pán)

Kafka的producer生產(chǎn)數(shù)據(jù)畅铭，要寫(xiě)入到log文件中，寫(xiě)的過(guò)程是一直追加到文件末端勃蜘，為順序?qū)懰敦９倬W(wǎng)有數(shù)據(jù)表明，同樣的磁盤(pán)缭贡，順序?qū)懩艿降?00M/s炉擅，而隨機(jī)寫(xiě)只有100k/s。這與磁盤(pán)的機(jī)械機(jī)構(gòu)有關(guān)匀归，順序?qū)懼钥炜幼剩且驗(yàn)槠涫∪チ舜罅看蓬^尋址的時(shí)間。

3.4.2 零復(fù)制技術(shù)

Xnip2020-07-08_16-13-02

免去了對(duì)用戶(hù)端的讀寫(xiě)流程穆端。

3.5 Zookeeper在Kafka中的作用

Kafka集群中有一個(gè)broker會(huì)被選舉為Controller袱贮，負(fù)責(zé)管理集群broker的上下線，所有topic的分區(qū)副本分配和leader選舉等工作体啰。

Controller的管理工作都是依賴(lài)于Zookeeper的攒巍。

以下為partition的leader選舉過(guò)程：

Xnip2020-07-08_16-14-17

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市荒勇，隨后出現(xiàn)的幾起案子柒莉，更是在濱河造成了極大的恐慌，老刑警劉巖沽翔，帶你破解...
沈念sama閱讀 218,640評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件兢孝，死亡現(xiàn)場(chǎng)離奇詭異窿凤，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)跨蟹，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,254評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)雳殊，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人窗轩，你說(shuō)我怎么就攤上這事夯秃。” “怎么了痢艺？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,011評(píng)論 0贊 355
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵仓洼，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我堤舒，道長(zhǎng)色建，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,755評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任植酥，我火速辦了婚禮镀岛，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘友驮。我一直安慰自己漂羊，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,774評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布卸留。她就那樣靜靜地躺著走越，像睡著了一般。火紅的嫁衣襯著肌膚如雪耻瑟。梳的紋絲不亂的頭發(fā)上旨指，一...
開(kāi)封第一講書(shū)人閱讀 51,610評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音喳整，去河邊找鬼谆构。笑死，一個(gè)胖子當(dāng)著我的面吹牛框都，可吹牛的內(nèi)容都是我干的搬素。我是一名探鬼主播，決...
沈念sama閱讀 40,352評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼魏保，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼熬尺！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起谓罗，我...
開(kāi)封第一講書(shū)人閱讀 39,257評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤粱哼，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后檩咱，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體揭措，經(jīng)...
沈念sama閱讀 45,717評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡胯舷，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,894評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了绊含。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片需纳。...
茶點(diǎn)故事閱讀 40,021評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖艺挪，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情兵扬，我是刑警寧澤麻裳，帶...
沈念sama閱讀 35,735評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站器钟，受9級(jí)特大地震影響津坑，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜傲霸，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,354評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一疆瑰、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧昙啄，春花似錦穆役、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,936評(píng)論 0贊 22
一樁弒父案耿币，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至韧拒，卻和暖如春淹接，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背叛溢。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,054評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工塑悼，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人楷掉。一個(gè)月前我還...
沈念sama閱讀 48,224評(píng)論 3贊 371
代替公主和親
正文我出身青樓厢蒜，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親靖诗。傳聞我的和親對(duì)象是個(gè)殘疾皇子郭怪，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,974評(píng)論 2贊 355