? ? ? ?nifi是一個(gè)Zero-Master的集群模式驱显,每一個(gè)node承擔(dān)著一樣的角色,但是處理數(shù)據(jù)的不同部分嫩与。有一個(gè)Cluster Coordinator的角色晓避,通過選舉產(chǎn)生。其他節(jié)點(diǎn)必須向Cluster Coordinator發(fā)送心跳乙帮,Cluster Coordinator來決定剔除節(jié)點(diǎn)或者加入節(jié)點(diǎn)杜漠。當(dāng)一個(gè)新節(jié)點(diǎn)要加入集群,那么它的flow配置文件的版本必須與Cluster Coordinator的節(jié)點(diǎn)的一樣察净,如果不一致驾茴,則不允許加入∏饪ǎ可以通過刪除新增加節(jié)點(diǎn)的配置文件(conf/flow.xml.gz)來加入集群锈至。
? ? ? ?當(dāng)數(shù)據(jù)量比較大的時(shí)候,單個(gè)nifi節(jié)點(diǎn)處理不過來译秦,就需要多個(gè)節(jié)點(diǎn)峡捡。但是多個(gè)節(jié)點(diǎn)管理起來非常麻煩,所以cluster是非常必要的筑悴。以下幾個(gè)概念比較重要:
Primary Node
每個(gè)cluster有一個(gè)Primary Node们拙,用來執(zhí)行"Isolated Processors"「罅撸可以利用zookeeper自動(dòng)選舉Primary Node砚婆,也可以在用戶界面的Cluster Management頁來直接決定誰是Primary Node。
Isolated Processors
在集群中只能單實(shí)例運(yùn)行(比如ListFTP突勇,如果在多個(gè)節(jié)點(diǎn)同時(shí)執(zhí)行装盯,那么獲取數(shù)據(jù)會重復(fù)),會在Primary Node上執(zhí)行甲馋。如果配置得當(dāng)埂奈,那么可以自動(dòng)負(fù)載均衡分發(fā)數(shù)據(jù)到其他節(jié)點(diǎn)。
Dealing with Disconnected Nodes
? ? ?當(dāng)一個(gè)節(jié)點(diǎn)因?yàn)榫W(wǎng)絡(luò)原因掉了以后摔刁,那么在它加入集群之前無法改變flow的配置挥转。如果非要更改海蔽,可以在用戶界面的Cluster Management頁手動(dòng)remove這個(gè)節(jié)點(diǎn)出集群共屈。
Flow Election
cluster啟動(dòng)的時(shí)候每一個(gè)node會提交自己的flow.xml.gz到集群中,然后每臺對和自己一樣的flow進(jìn)行投票党窜,如果投票時(shí)間(nifi.cluster.flow.election.max.wait.time)到了或者某一個(gè)flow.xml.gz已經(jīng)達(dá)到票數(shù)(nifi.cluster.flow.election.max.candidates)拗引,則選出一個(gè)正確的flow.xml.gz。不一致的node自動(dòng)掛掉幌衣,除非它自己沒有flow.xml.gz矾削。
CLuster分發(fā)數(shù)據(jù)
關(guān)于cluster分發(fā)數(shù)據(jù)壤玫,官方文檔說的有點(diǎn)兒不清楚,有一篇文章說的很清楚:How Do I Distribute Data Across an Apache NiFi Cluster
文中提到了三種方法:第一種是數(shù)據(jù)源自己push數(shù)據(jù)哼凯,就是需要在processor前邊加一個(gè)Load Banlacer欲间。
第二種是數(shù)據(jù)源的數(shù)據(jù)依靠processor去拉取數(shù)據(jù),最典型的是GetKafka processor断部,由kafka自己的機(jī)制(使用同一個(gè)group.id)來保證數(shù)據(jù)的分發(fā)猎贴。
另外一種拉取數(shù)據(jù)的案例是一個(gè)在主節(jié)點(diǎn)上執(zhí)行的list操作,然后通過site-to-site協(xié)議把數(shù)據(jù)分發(fā)到各個(gè)節(jié)點(diǎn)蝴光,然后后端的processor拉取數(shù)據(jù)她渴。如圖所示,當(dāng)RPG生效的時(shí)候 蔑祟,Node1的rpg建立一個(gè)SiteToSiteClient趁耗,保存cluster的狀態(tài)信息(動(dòng)態(tài)跟新)。當(dāng)進(jìn)行數(shù)據(jù)發(fā)送時(shí)疆虚,根據(jù)負(fù)載狀態(tài)苛败,同node1或者node2的InputPort建立socket連接,然后把數(shù)據(jù)發(fā)出去径簿。
第三種就是單純的兩個(gè)NIFI實(shí)例之間的通過site-to-site協(xié)議交換數(shù)據(jù)來實(shí)現(xiàn)數(shù)據(jù)分發(fā)著拭。
NIFI site-to-site
? ? ? ?當(dāng)NIFI實(shí)例之間進(jìn)行數(shù)據(jù)交互的時(shí)候,有很多協(xié)議可以使用牍帚,但是最好的應(yīng)該是NiFi Site-to-Site 協(xié)議儡遮。Site-to-Site 使得NIFI和其他NIFI實(shí)例或者其他消費(fèi)者應(yīng)用之間的數(shù)據(jù)傳輸更加高效和安全。
使用Site-to-Site有以下幾個(gè)優(yōu)點(diǎn):
Easy to configure
? ? ?輸入遠(yuǎn)端NIFI實(shí)例的URL之后暗赶,有效的端口(在NIFI的root process group定義的port)會被發(fā)現(xiàn)并列到下拉列表里邊鄙币。
Secure
? ? ? Site-to-Site可以使用證書來加密數(shù)據(jù)或者提供認(rèn)證。每一個(gè)port可以授權(quán)給指定的用戶蹂随,只有授權(quán)過的用戶才能看到這些port十嘿。
Scalable
? ? ? Site-to-Site可以自動(dòng)發(fā)現(xiàn)遠(yuǎn)端cluster中的所有節(jié)點(diǎn)的狀態(tài),然后數(shù)據(jù)會發(fā)送給所有集群中的節(jié)點(diǎn)(不能指定發(fā)給某幾個(gè)節(jié)點(diǎn))岳锁。
Efficient
? ? ? 為了避免創(chuàng)建鏈接的開銷绩衷,Site-to-Site會批量發(fā)送數(shù)據(jù)。
Reliable
? ? ? 等數(shù)據(jù)傳輸完畢后激率,sender 和 receiver會自動(dòng)向?qū)Ψ桨l(fā)送Checksums咳燕,如果checksums不匹配,那么重新傳輸乒躺。
Automatically load balanced
? ? ?當(dāng)node下線招盲,或者node的負(fù)載出現(xiàn)波動(dòng),和這個(gè)節(jié)點(diǎn)有關(guān)的數(shù)據(jù)會自動(dòng)進(jìn)行調(diào)整嘉冒。
FlowFiles maintain attributes
? ? ? FlowFile的屬性會一起被傳輸曹货。
Adaptable
? ? ? 協(xié)議向下兼容咆繁,兩個(gè)不同版本的nifi也可以交互。