kafka原理及主要流程+Flume

Kafka


一艺栈、Kafka是一個分布式消息隊列系統(tǒng)傅寡,以集群方式存在放妈。

優(yōu)點:高吞吐率(每秒百萬級)北救;基于多分區(qū)多副本實現(xiàn)高容錯,并發(fā)能力強芜抒;易擴展(增加blocker)等扭倾。

缺點:僅保證分區(qū)內(nèi)有序,不保證topic全局消息有序挽绩。

二膛壹、內(nèi)部原理及實現(xiàn)

Kafka依賴zk,以集群方式工作唉堪,每臺機器稱為一個blocker(與其他分布式環(huán)境不同的是模聋,僅有1臺blocker也能工作),并分別指定blockerId唠亚,kafka中同一類型數(shù)據(jù)以topic形式存在链方,可對topic進行分區(qū),及指定副本數(shù)灶搜,例如可將 topic1 分區(qū)為3個partition:p0,p1,p2 ;每個分區(qū)副本數(shù)為3祟蚀,則每個分區(qū)塊會均勻的分布在blocker中,對于每個partition割卖,有多個副本前酿,會選出一個leader partition對外接收請求(只有l(wèi)eader partition會接收外部請求,其他follower partition只負責(zé)同步leader數(shù)據(jù)鹏溯,不接收外部請求罢维,包括讀請求,這里與zk不同丙挽,zk的follower會接收讀請求)肺孵。集群有多個blocker,會基于zk選擇出一個Controller颜阐,來管理整個集群平窘,包括blocker管理、topic管理凳怨,partition leader分配等瑰艘。

每個blocker只存儲消息體,不存儲元數(shù)據(jù)(topic信息猿棉;分區(qū)信息:topic有哪些分區(qū)磅叛,哪些副本,分別在哪臺blocker上萨赁,哪個是leader弊琴;consumer信息及讀取消息后提交的偏移量數(shù)據(jù)等),元數(shù)據(jù)存儲在zk中杖爽。

Controller主要功能:

(1)更新元數(shù)據(jù)

若blocker宕機敲董,相關(guān)副本不可用紫皇,需要重新選擇相關(guān)partition的leader,及更新ISR列表腋寨,選舉完畢后聪铺,controller會更新zk中的元數(shù)據(jù),并廣播給其他blocker(每個blocker都可以對外提供元數(shù)據(jù)信息)

(2)topic管理

新增萄窜、刪除topic

(3)分區(qū)重新分配

通過自帶的 kafka-reassign-partitions 腳本可重新制定topic分區(qū)铃剔,由controller處理請求,重新分配并選擇每個分區(qū)的leader查刻。

(4)partition leader 分配

partition? leader 選舉的原理 :

  1. 在ZooKeeper上創(chuàng)建/admin/preferred_replica_election節(jié)點键兜,并存入需要調(diào)整Preferred Replica的Partition信息。

  2. Controller一直Watch該節(jié)點穗泵,一旦該節(jié)點被創(chuàng)建普气,Controller會收到通知,并獲取該內(nèi)容佃延。

  3. Controller讀取Preferred Replica现诀,如果發(fā)現(xiàn)該Replica當(dāng)前并非是Leader并且它在該Partition的ISR中,

Controller向該Replica發(fā)送LeaderAndIsrRequest履肃,使該Replica成為Leader仔沿。

如果該Replica當(dāng)前并非是Leader,且不在ISR中榆浓,Controller為了保證沒有數(shù)據(jù)丟失于未,并不會將其設(shè)置為Leader。

(總結(jié):副本partition向zk創(chuàng)建臨時節(jié)點并寫入數(shù)據(jù)陡鹃,Controller broker監(jiān)聽節(jié)點,一旦創(chuàng)建成功抖坪,獲取其中的消息萍鲸,更新副本Leader及ISR列表,完成選舉擦俐;只會選擇ISR列表中的設(shè)備作為leader)

具體實現(xiàn):

在kafka中創(chuàng)建一個topic脊阴,controller會接收創(chuàng)建的請求,并在zk的目錄下新增topic節(jié)點

zk中會維護consumer相關(guān)信息:

其他還有什么信息查查zk節(jié)點就知道了蚯瞧。嘿期。。

三埋合、消息生產(chǎn)與消費的流程

Producer 發(fā)送消息到kafka中:

生產(chǎn)者會指定一個blocker servers备徐,與集群中blocker一致。并指定acks級別(發(fā)送完消息后是否等待消息成功寫入kafka的反饋)甚颂。

kafka集群中的任何一個broker,都可以向producer提供metadata信息,這些metadata中包含"集群中存活的servers列表"/"partitions leader列表"等信息(請參看zookeeper中的節(jié)點信息).

當(dāng)producer獲取到metadata信息之后, producer將會和Topic下所有partition leader保持socket連接;

消息由producer直接通過socket發(fā)送到broker,中間不會經(jīng)過任何"路由層".事實上,消息被路由到哪個partition上,由producer客戶端決定.比如可以采用"random""key-hash""輪詢"等,如果一個topic中有多個partitions,那么在producer端實現(xiàn)"消息均衡分發(fā)"是必要的.

在producer端的配置文件中,開發(fā)者可以指定partition路由的方式.

Consumer 消費:

需要為每個Consumer 指定一個Consumer Group蜜猾,不同Group可讀取相同消息秀菱;同一group內(nèi)不同consumer 互斥,不會消費相同的消息蹭睡。

consumer 相關(guān)信息也在zk中維護(屬于哪個consumer group衍菱,讀取哪個topic,不同的分區(qū)分別讀到哪里的偏移量等)肩豁;consumer讀取完消息后可選擇自動提交偏移量 或 手動提交脊串;

Consumer均衡算法:

當(dāng)一個group中,有consumer加入或者離開時,會觸發(fā)partitions均衡.均衡的最終目的,是提升topic的并發(fā)消費能力.

1) 假如topic1,具有如下partitions: P0,P1,P2,P3

2) 加入group中,有如下consumer: C0,C1

3) 首先根據(jù)partition索引號對partitions排序: P0,P1,P2,P3

4) 根據(jù)consumer.id排序: C0,C1

5) 計算倍數(shù): M = [P0,P1,P2,P3].size / [C0,C1].size,本例值M=2(向上取整)

6) 然后依次分配partitions: C0 = [P0,P1],C1=[P2,P3],即Ci = [P(i * M),P((i + 1) * M -1)]

一般情況下可以 1個 consumner負責(zé)一個 partition,如果partition 比consumer多清钥,可以1個consumer負責(zé)多個partition? 提升并發(fā)能力琼锋。。

? 1) Producer端直接連接broker.list列表,從列表中返回TopicMetadataResponse,該Metadata包含Topic下每個partition leader建立socket連接并發(fā)送消息.

? ? 2) Broker端使用zookeeper用來注冊broker信息,以及監(jiān)控partition leader存活性.

? ? 3) Consumer端使用zookeeper用來注冊consumer信息,其中包括consumer消費的partition列表等,同時也用來發(fā)現(xiàn)broker列表,并和partition leader建立socket連接,并獲取消息.

Flume


一循捺、Flume是海量數(shù)據(jù)采集斩例、聚合、傳輸?shù)南到y(tǒng)从橘,廣泛用于日志采集念赶。

內(nèi)置豐富的組件,通過組件間的自由組合恰力,實現(xiàn)不同架構(gòu)的數(shù)據(jù)采集系統(tǒng)叉谜,無需開發(fā),只需手動配置文件即可實現(xiàn)踩萎。

理解下圖:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末停局,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子香府,更是在濱河造成了極大的恐慌董栽,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件企孩,死亡現(xiàn)場離奇詭異锭碳,居然都是意外死亡,警方通過查閱死者的電腦和手機勿璃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門擒抛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人补疑,你說我怎么就攤上這事歧沪。” “怎么了莲组?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵诊胞,是天一觀的道長。 經(jīng)常有香客問我胁编,道長厢钧,這世上最難降的妖魔是什么鳞尔? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮早直,結(jié)果婚禮上寥假,老公的妹妹穿的比我還像新娘。我一直安慰自己霞扬,他們只是感情好糕韧,可當(dāng)我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著喻圃,像睡著了一般萤彩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上斧拍,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天雀扶,我揣著相機與錄音,去河邊找鬼肆汹。 笑死愚墓,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的昂勉。 我是一名探鬼主播浪册,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼岗照!你這毒婦竟也來了村象?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤攒至,失蹤者是張志新(化名)和其女友劉穎厚者,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迫吐,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡籍救,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了渠抹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡闪萄,死狀恐怖梧却,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情败去,我是刑警寧澤放航,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站圆裕,受9級特大地震影響广鳍,放射性物質(zhì)發(fā)生泄漏荆几。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一赊时、第九天 我趴在偏房一處隱蔽的房頂上張望吨铸。 院中可真熱鬧,春花似錦祖秒、人聲如沸诞吱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽房维。三九已至,卻和暖如春抬纸,著一層夾襖步出監(jiān)牢的瞬間咙俩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工湿故, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留阿趁,地道東北人。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓晓锻,卻偏偏與公主長得像歌焦,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子砚哆,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容