kafka原理及主要流程+Flume

Kafka

一艺栈、Kafka是一個分布式消息隊列系統(tǒng)傅寡，以集群方式存在放妈。

優(yōu)點：高吞吐率（每秒百萬級）北救；基于多分區(qū)多副本實現(xiàn)高容錯，并發(fā)能力強芜抒；易擴展（增加blocker）等扭倾。

缺點：僅保證分區(qū)內(nèi)有序，不保證topic全局消息有序挽绩。

二膛壹、內(nèi)部原理及實現(xiàn)

Kafka依賴zk，以集群方式工作唉堪，每臺機器稱為一個blocker（與其他分布式環(huán)境不同的是模聋，僅有1臺blocker也能工作），并分別指定blockerId唠亚，kafka中同一類型數(shù)據(jù)以topic形式存在链方，可對topic進行分區(qū)，及指定副本數(shù)灶搜，例如可將 topic1 分區(qū)為3個partition:p0,p1,p2 ;每個分區(qū)副本數(shù)為3祟蚀，則每個分區(qū)塊會均勻的分布在blocker中，對于每個partition割卖，有多個副本前酿，會選出一個leader partition對外接收請求（只有l(wèi)eader partition會接收外部請求，其他follower partition只負責(zé)同步leader數(shù)據(jù)鹏溯，不接收外部請求罢维，包括讀請求，這里與zk不同丙挽，zk的follower會接收讀請求）肺孵。集群有多個blocker，會基于zk選擇出一個Controller颜阐，來管理整個集群平窘，包括blocker管理、topic管理凳怨，partition leader分配等瑰艘。

每個blocker只存儲消息體，不存儲元數(shù)據(jù)（topic信息猿棉；分區(qū)信息：topic有哪些分區(qū)磅叛，哪些副本，分別在哪臺blocker上萨赁，哪個是leader弊琴；consumer信息及讀取消息后提交的偏移量數(shù)據(jù)等），元數(shù)據(jù)存儲在zk中杖爽。

Controller主要功能：

（1）更新元數(shù)據(jù)

若blocker宕機敲董，相關(guān)副本不可用紫皇，需要重新選擇相關(guān)partition的leader，及更新ISR列表腋寨，選舉完畢后聪铺，controller會更新zk中的元數(shù)據(jù)，并廣播給其他blocker（每個blocker都可以對外提供元數(shù)據(jù)信息）

（2）topic管理

新增萄窜、刪除topic

（3）分區(qū)重新分配

通過自帶的 kafka-reassign-partitions 腳本可重新制定topic分區(qū)铃剔，由controller處理請求，重新分配并選擇每個分區(qū)的leader查刻。

（4）partition leader 分配

partition? leader 選舉的原理：

　　1. 在ZooKeeper上創(chuàng)建/admin/preferred_replica_election節(jié)點键兜，并存入需要調(diào)整Preferred Replica的Partition信息。

　　2. Controller一直Watch該節(jié)點穗泵，一旦該節(jié)點被創(chuàng)建普气，Controller會收到通知，并獲取該內(nèi)容佃延。

　　3. Controller讀取Preferred Replica现诀，如果發(fā)現(xiàn)該Replica當(dāng)前并非是Leader并且它在該Partition的ISR中，

Controller向該Replica發(fā)送LeaderAndIsrRequest履肃，使該Replica成為Leader仔沿。

如果該Replica當(dāng)前并非是Leader，且不在ISR中榆浓，Controller為了保證沒有數(shù)據(jù)丟失于未，并不會將其設(shè)置為Leader。

（總結(jié)：副本partition向zk創(chuàng)建臨時節(jié)點并寫入數(shù)據(jù)陡鹃，Controller broker監(jiān)聽節(jié)點，一旦創(chuàng)建成功抖坪，獲取其中的消息萍鲸，更新副本Leader及ISR列表，完成選舉擦俐；只會選擇ISR列表中的設(shè)備作為leader）

具體實現(xiàn)：

在kafka中創(chuàng)建一個topic脊阴，controller會接收創(chuàng)建的請求，并在zk的目錄下新增topic節(jié)點

zk中會維護consumer相關(guān)信息：

其他還有什么信息查查zk節(jié)點就知道了蚯瞧。嘿期。。

三埋合、消息生產(chǎn)與消費的流程

Producer 發(fā)送消息到kafka中：

生產(chǎn)者會指定一個blocker servers备徐，與集群中blocker一致。并指定acks級別（發(fā)送完消息后是否等待消息成功寫入kafka的反饋）甚颂。

kafka集群中的任何一個broker,都可以向producer提供metadata信息,這些metadata中包含"集群中存活的servers列表"/"partitions leader列表"等信息(請參看zookeeper中的節(jié)點信息).

當(dāng)producer獲取到metadata信息之后, producer將會和Topic下所有partition leader保持socket連接;

消息由producer直接通過socket發(fā)送到broker,中間不會經(jīng)過任何"路由層".事實上,消息被路由到哪個partition上,由producer客戶端決定.比如可以采用"random""key-hash""輪詢"等,如果一個topic中有多個partitions,那么在producer端實現(xiàn)"消息均衡分發(fā)"是必要的.

在producer端的配置文件中,開發(fā)者可以指定partition路由的方式.

Consumer 消費：

需要為每個Consumer 指定一個Consumer Group蜜猾，不同Group可讀取相同消息秀菱；同一group內(nèi)不同consumer 互斥，不會消費相同的消息蹭睡。

consumer 相關(guān)信息也在zk中維護（屬于哪個consumer group衍菱，讀取哪個topic，不同的分區(qū)分別讀到哪里的偏移量等）肩豁；consumer讀取完消息后可選擇自動提交偏移量或手動提交脊串；

Consumer均衡算法：

當(dāng)一個group中,有consumer加入或者離開時,會觸發(fā)partitions均衡.均衡的最終目的,是提升topic的并發(fā)消費能力.

1) 假如topic1,具有如下partitions: P0,P1,P2,P3

2) 加入group中,有如下consumer: C0,C1

3) 首先根據(jù)partition索引號對partitions排序: P0,P1,P2,P3

4) 根據(jù)consumer.id排序: C0,C1

5) 計算倍數(shù): M = [P0,P1,P2,P3].size / [C0,C1].size,本例值M=2(向上取整)

6) 然后依次分配partitions: C0 = [P0,P1],C1=[P2,P3],即Ci = [P(i * M),P((i + 1) * M -1)]

一般情況下可以 1個 consumner負責(zé)一個 partition，如果partition 比consumer多清钥，可以1個consumer負責(zé)多個partition? 提升并發(fā)能力琼锋。。

? 1) Producer端直接連接broker.list列表,從列表中返回TopicMetadataResponse,該Metadata包含Topic下每個partition leader建立socket連接并發(fā)送消息.

? ? 2) Broker端使用zookeeper用來注冊broker信息,以及監(jiān)控partition leader存活性.

? ? 3) Consumer端使用zookeeper用來注冊consumer信息,其中包括consumer消費的partition列表等,同時也用來發(fā)現(xiàn)broker列表,并和partition leader建立socket連接,并獲取消息.

Flume

一循捺、Flume是海量數(shù)據(jù)采集斩例、聚合、傳輸?shù)南到y(tǒng)从橘，廣泛用于日志采集念赶。

內(nèi)置豐富的組件，通過組件間的自由組合恰力，實現(xiàn)不同架構(gòu)的數(shù)據(jù)采集系統(tǒng)叉谜，無需開發(fā)，只需手動配置文件即可實現(xiàn)踩萎。

理解下圖：

最后編輯于：2018.03.16 17:30:18

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末停局，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子香府，更是在濱河造成了極大的恐慌董栽，老刑警劉巖，帶你破解...
沈念sama閱讀 222,183評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件企孩，死亡現(xiàn)場離奇詭異锭碳，居然都是意外死亡，警方通過查閱死者的電腦和手機勿璃，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,850評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門擒抛，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人补疑，你說我怎么就攤上這事歧沪。” “怎么了莲组？”我有些...
開封第一講書人閱讀 168,766評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵诊胞，是天一觀的道長。經(jīng)常有香客問我胁编，道長厢钧，這世上最難降的妖魔是什么鳞尔？我笑而不...
開封第一講書人閱讀 59,854評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮早直，結(jié)果婚禮上寥假，老公的妹妹穿的比我還像新娘。我一直安慰自己霞扬，他們只是感情好糕韧，可當(dāng)我...
茶點故事閱讀 68,871評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著喻圃，像睡著了一般萤彩。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上斧拍，一...
開封第一講書人閱讀 52,457評論 1贊 311
城市分裂傳說
那天雀扶，我揣著相機與錄音，去河邊找鬼肆汹。笑死愚墓，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的昂勉。我是一名探鬼主播浪册，決...
沈念sama閱讀 40,999評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼岗照！你這毒婦竟也來了村象？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,914評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤攒至，失蹤者是張志新（化名）和其女友劉穎厚者，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迫吐，經(jīng)...
沈念sama閱讀 46,465評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡籍救，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,543評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了渠抹。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,675評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡闪萄，死狀恐怖梧却，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情败去，我是刑警寧澤放航，帶...
沈念sama閱讀 36,354評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站圆裕，受9級特大地震影響广鳍，放射性物質(zhì)發(fā)生泄漏荆几。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,029評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一赊时、第九天我趴在偏房一處隱蔽的房頂上張望吨铸。院中可真熱鬧，春花似錦祖秒、人聲如沸诞吱。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,514評論 0贊 25
一樁弒父案竭缝，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽房维。三九已至，卻和暖如春抬纸，著一層夾襖步出監(jiān)牢的瞬間咙俩，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,616評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工湿故，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留阿趁，地道東北人。一個月前我還...
沈念sama閱讀 49,091評論 3贊 378
代替公主和親
正文我出身青樓晓锻，卻偏偏與公主長得像歌焦，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子砚哆，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,685評論 2贊 360

kafka原理及主要流程+Flume

Kafka

Flume

推薦閱讀更多精彩內(nèi)容