1、概述
? Flume是一個(gè)分布式、可靠眷细、高可用的海量日志采集膛虫、聚合和傳輸?shù)南到y(tǒng)。
? Flume可以采集文件躏吊,socket數(shù)據(jù)包等各種形式源數(shù)據(jù)氛改,又可以將采集到的數(shù)據(jù)輸出到HDFS、hbase比伏、hive胜卤、kafka等眾多外部存儲(chǔ)系統(tǒng)中
? 一般的采集需求,通過(guò)對(duì)flume的簡(jiǎn)單配置即可實(shí)現(xiàn)
? Flume針對(duì)特殊場(chǎng)景也具備良好的自定義擴(kuò)展能力赁项,因此葛躏,flume可以適用于大部分的日常數(shù)據(jù)采集場(chǎng)景
2、運(yùn)行機(jī)制
1悠菜、 Flume分布式系統(tǒng)中最核心的角色是agent舰攒,flume采集系統(tǒng)就是由一個(gè)個(gè)agent所連接起來(lái)形成
2、 每一個(gè)agent相當(dāng)于一個(gè)數(shù)據(jù)傳遞員悔醋,內(nèi)部有三個(gè)組件:
a) Source:采集源摩窃,用于跟數(shù)據(jù)源對(duì)接,以獲取數(shù)據(jù)
b) Sink:下沉地芬骄,采集數(shù)據(jù)的傳送目的猾愿,用于往下一級(jí)agent傳遞數(shù)據(jù)或者往最終存儲(chǔ)系統(tǒng)傳遞數(shù)據(jù)
c) Channel:angent內(nèi)部的數(shù)據(jù)傳輸通道鹦聪,用于從source將數(shù)據(jù)傳遞到sink