好久沒有寫分享了语卤,繼前一個系列進行了Kafka源碼分享之后,接下來進行Flume源碼分析系列霜威,望大家繼續(xù)關(guān)注谈喳,今天先進行開篇文章Flume+kafka的環(huán)境配置與使用。
一戈泼、FLUME介紹
Flume是一個分布式婿禽、可靠、和高可用的海量日志聚合的系統(tǒng)大猛,支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方扭倾,用于收集數(shù)據(jù);同時挽绩,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理膛壹,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
設(shè)計目標:
(1) 可靠性
當(dāng)節(jié)點出現(xiàn)故障時,日志能夠被傳送到其他節(jié)點上而不會丟失模聋。Flume提供了三種級別的可靠性保障肩民,從強到弱依次分別為:end-to-end(收到數(shù)據(jù)agent首先將event寫到磁盤上,當(dāng)數(shù)據(jù)傳送成功后链方,再刪除持痰;如果數(shù)據(jù)發(fā)送失敗,可以重新發(fā)送祟蚀。)工窍,Store on failure(這也是scribe采用的策略,當(dāng)數(shù)據(jù)接收方crash時暂题,將數(shù)據(jù)寫到本地移剪,待恢復(fù)后,繼續(xù)發(fā)送)薪者,Best effort(數(shù)據(jù)發(fā)送到接收方后纵苛,不會進行確認)。
(2) 可擴展性
Flume采用了三層架構(gòu)言津,分別為agent攻人,collector和storage,每一層均可以水平擴展悬槽。其中怀吻,所有agent和collector由master統(tǒng)一管理,這使得系統(tǒng)容易監(jiān)控和維護初婆,且master允許有多個(使用ZooKeeper進行管理和負載均衡)蓬坡,這就避免了單點故障問題。
(3) 可管理性
所有agent和colletor由master統(tǒng)一管理磅叛,這使得系統(tǒng)便于維護屑咳。多master情況,F(xiàn)lume利用ZooKeeper和gossip弊琴,保證動態(tài)配置數(shù)據(jù)的一致性兆龙。用戶可以在master上查看各個數(shù)據(jù)源或者數(shù)據(jù)流執(zhí)行情況,且可以對各個數(shù)據(jù)源配置和動態(tài)加載敲董。Flume提供了web 和shell script command兩種形式對數(shù)據(jù)流進行管理紫皇。
(4) 功能可擴展性
用戶可以根據(jù)需要添加自己的agent,collector或者storage腋寨。此外聪铺,F(xiàn)lume自帶了很多組件,包括各種agent(file萄窜, syslog等)计寇,collector和storage(file锣杂,HDFS等)。
二番宁、Flume 的 一些核心概念:
組件名稱 | 功能介紹 |
---|---|
Agent代理 | 使用JVM 運行Flume元莫。每臺機器運行一個agent,但是可以在一個agent中包含多個sources和sinks蝶押。 |
Client客戶端 | 生產(chǎn)數(shù)據(jù)踱蠢,運行在一個獨立的線程。 |
Source源 | 從Client收集數(shù)據(jù)棋电,傳遞給Channel茎截。 |
Sink接收器 | 從Channel收集數(shù)據(jù),進行相關(guān)操作赶盔,運行在一個獨立線程企锌。 |
Channel通道 | 連接 sources 和 sinks ,這個有點像一個隊列于未。 |
Events事件 | 傳輸?shù)幕緮?shù)據(jù)負載撕攒。 |
三、Flume的整體構(gòu)成圖
注意
源將事件寫到一個多或者多個通道中烘浦。
接收器只從一個通道接收事件抖坪。
代理可能會有多個源、通道與接收器闷叉。
四擦俐、Flume環(huán)境配置
- 在http://flume.apache.org/ 下載Flume安裝包,我們選擇最新的1.6.0版本握侧。
- 安裝包內(nèi)容如下
- 配置文件
常用配置模式一
掃描指定文件
agent.sources.s1.type=exec
agent.sources.s1.command=tail -F /Users/it-od-m/Downloads/abc.log
agent.sources.s1.channels=c1
agent.channels.c1.type=memory
agent.channels.c1.capacity=10000
agent.channels.c1.transactionCapacity=100
#設(shè)置Kafka接收器
agent.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink
#設(shè)置Kafka的broker地址和端口號
agent.sinks.k1.brokerList=127.0.0.1:9092
#設(shè)置Kafka的Topic
agent.sinks.k1.topic=testKJ1
#設(shè)置序列化方式
agent.sinks.k1.serializer.class=kafka.serializer.StringEncoder
agent.sinks.k1.channel=c1
常用配置模式二
Agent名稱定義為agent.
Source:可以理解為輸入端蚯瞧,定義名稱為s1
channel:傳輸頻道,定義為c1品擎,設(shè)置為內(nèi)存模式
sinks:可以理解為輸出端埋合,定義為sk1,
agent.sources = s1
agent.channels = c1
agent.sinks = sk1
#設(shè)置Source的內(nèi)省為netcat 端口為5678,使用的channel為c1
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 3456
agent.sources.s1.channels = c1
#設(shè)置Sink為logger模式孽查,使用的channel為c1
agent.sinks.sk1.type = logger
agent.sinks.sk1.channel = c1
#設(shè)置channel信息
agent.channels.c1.type = memory #內(nèi)存模式
agent.channels.c1.capacity = 1000
agent.channels.c1.transactionCapacity = 100 #傳輸參數(shù)設(shè)置。
常用配置模式三
掃描目錄新增文件
agent.sources = s1
agent.channels = c1
agent.sinks = sk1
#設(shè)置spooldir
agent.sources.s1.type = spooldir
agent.sources.s1.spoolDir = /Users/it-od-m/logs
agent.sources.s1.fileHeader = true
agent.sources.s1.channels = c1
agent.sinks.sk1.type = logger
agent.sinks.sk1.channel = c1
#In Memory !!!
agent.channels.c1.type = memory
agent.channels.c1.capacity = 10004
agent.channels.c1.transactionCapacity = 100
我們今天重點使用第一種模式坦喘,因為要與Kafka相結(jié)合盲再。
配置好參數(shù)以后,回到如下目錄:
使用如下命令啟動Flume:
./bin/flume-ng agent -n agent -c conf -f conf/hw.conf -Dflume.root.logger=INFO,console
最后一行顯示Component type:SINK,name:k1 started表示啟動成功瓣铣。
在啟動Flume之前答朋,Zookeeper和Kafka要先啟動成功,不然啟動Flume會報連不上Kafka的錯誤棠笑。
1梦碗、使用./zkServer.sh start
啟動zookeeper。
2、使用如下命令啟動Kafka洪规,更詳細的Kafka命令請參照我之前總結(jié)的http://www.reibang.com/p/cfedb7122e38 (Kafka常用命令行總結(jié))
./kafka-server-start.sh -daemon ../config/server.properties
3印屁、使用Kafka默認提供的Consumer來接收消息
./kafka-console-consumer.sh -zookeeper localhost:2181 --from-beginning --topic testKJ1
4、編寫簡單Shell腳本output.sh斩例,并修改權(quán)限為可執(zhí)行權(quán)限
for((i=0;i<=50000;i++));
do echo "test-"+$i>>abc.log;
done
循環(huán)向abc.log文件插入test文本消息雄人。
5、執(zhí)行output.sh念赶。
整個過程流程如下:
至此簡單的使用介紹已經(jīng)講完础钠,關(guān)于Flume還有非常多的屬性和配置技巧需要我們?nèi)ネ诰颍覀円源宋恼伦鳛殚_篇為的是為以后源碼分析作為鋪墊叉谜。