Flume學(xué)習(xí)一(基本source罗标、channel、sink)

默認(rèn)命名如下:

a1.sources = r1

a1.sinks = k1

a1.channels = c1 c2 c3 c4

agent_name:a1 ? ? source_name:r1 ? ? channel_name:c1 ? ? sink_name:k1

1刁卜、Interceptors(sources)

攔截器的作用范圍是數(shù)據(jù)源到source之間,主要是為了給數(shù)據(jù)添加headers曙咽,最常用的是timestamp蛔趴、host、static例朱。timestamp類型可以配合hdfs sink的文件輸出的日期格式(hdfs sink也可以用hdfs.useLocalTimeStamp來當(dāng)時間戳孝情,但是不能代表數(shù)據(jù)的產(chǎn)生時間)∪鬣停可以用host和static來做數(shù)據(jù)來源界定箫荡,既可以用來標(biāo)記數(shù)據(jù),也可以用來做數(shù)據(jù)分發(fā)的時候使用(配合Channel Selectors)烁竭。但是默認(rèn)的Interceptor只能針對web打標(biāo)簽菲茬,不能針對event打標(biāo)簽吉挣。如果需要對數(shù)據(jù)進(jìn)行標(biāo)志派撕,需要修改代碼才能實現(xiàn),比如avro? source可以修改org.apache.flume.clients.log4jappender.Log4jAppender的實現(xiàn)來增加一些數(shù)據(jù)上的處理睬魂。

2终吼、Channel Selectors

選擇器的作用范圍是source到channel之間,主要是為了確定每個Event到哪個channel氯哮。最常用的類型是replicating和multiplexing际跪,replicating是默認(rèn)的,能夠把Event分別復(fù)制到每個channel喉钢。multiplexing可以根據(jù)Event的headers里的key的不同的值把數(shù)據(jù)分發(fā)到不同的channel姆打。

3、Sink Processors

處理器的作用范圍是channel到sink之間肠虽,主要是為了確定Events到哪個sink幔戏。默認(rèn)的是default,最常用的是failover(故障轉(zhuǎn)移)和load_balance(負(fù)載均衡)税课。

4闲延、Flume sources

avro(監(jiān)聽端口):

a1.sources.r1.type = avro

a1.sources.r1.bind = 0.0.0.0

a1.sources.r1.port = 44444

a1.sources.r1.ipFilter = true #開啟ip黑白名單認(rèn)證,多個驗證順序執(zhí)行,或關(guān)系韩玩,只要滿足一個即驗證結(jié)束

a1.sources.r1.ipFilterRules = allow:ip:127.*,allow:name:localhost,deny:ip:*#這個意思是阻止任何ip訪問垒玲,僅允許ip127開頭和localhost通過

#攔截器部分,其他類型source組件一樣

a1.sources.r1.interceptors.i1.type = timestamp

a1.sources.r1.interceptors.i2.type = host

a1.sources.r1.interceptors.i3.type = static

a1.sources.r1.interceptors.i3.key = test_key

a1.sources.r1.interceptors.i3.value = test_value

#選擇器部分找颓,其他類型source組件一樣

a1.sources.r1.selector.type=multiplexing

a1.sources.r1.selector.header=state

a1.sources.r1.selector.mapping.CZ=c1

a1.sources.r1.selector.mapping.US=c2 c3

a1.sources.r1.selector.default=c4

exec(常用量監(jiān)控文件):

a1.sources.r1.type=exec

a1.sources.r1.command=tail -F /var/log/secure

a1.sources.r1.batchSize=20 #批處理條數(shù)合愈,每次上傳數(shù)據(jù)的條數(shù),不到不傳

a1.sources.r1.batchTimeout=3000 #等待數(shù)據(jù)時間(單位毫秒),如果在時間內(nèi)沒有收集到20條數(shù)據(jù)也需要傳輸數(shù)據(jù)

spooldir(監(jiān)控目錄):

a1.sources.r1.type = spooldir

a1.sources.r1.spoolDir = /home/hadoop/app/flume-1.6.0-cdh5.14.0-bin/tmp/

a1.sources.r1.fileSuffix = .org

a1.sources.r1.deletePolicy = never #讀完刪除與否佛析,默認(rèn)不刪除(never)妇汗,immediate立即刪除

a1.sources.r1.fileHeader = true

a1.sources.r1.fileHeaderKey = ruoze_file #headers里添加ruoze_file=文件全路徑

a1.sources.r1.basenameHeader = true

a1.sources.r1.basenameHeaderKey = ruoze_base #headers里添加ruoze_base=文件名

a1.sources.r1.trackerDir = /home/hadoop/app/flume-1.6.0-cdh5.14.0-bin/flumespool

TAILDIR(多目錄的文件監(jiān)控):

a1.sources.r1.type = TAILDIR

a1.sources.r1.filegroups = f1 f2

a1.sources.r1.positionFile = /home/hadoop/app/flume-1.6.0-cdh5.14.0-bin/positions/taildir_position.json

a1.sources.r1.filegroups.f1 = /home/hadoop/app/flume-1.6.0-cdh5.14.0-bin/tmp

a1.sources.r1.headers.f1.ruoze = TAILDIR_f1

a1.sources.r1.byteOffsetHeader = true #字節(jié)偏移量放到headers

a1.sources.r1.writePosInterval = 3000 #偏移量記錄時間間隔

a1.sources.r1.filegroups.f2 = /home/hadoop/app/flume-1.6.0-cdh5.14.0-bin/flumespool

a1.sources.r1.headers.f2.ruoze2 = TAILDIR_f2

netcat(監(jiān)聽端口):

a1.sources.r1.type = netcat

a1.sources.r1.bind = 0.0.0.0

a1.sources.r1.port = 44444

a1.sources.r1.max-line-length = 1024 #一行的最大長度,超出長度會報錯并斷掉連接

a1.sources.r1.ack-every-event = true #應(yīng)答OK給每個Event


5说莫、Flume channels

memory(內(nèi)存管道):

a1.channels = c1

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000#緩存最大Event條數(shù)

a1.channels.c1.transactionCapacity = 100#事物包括的Event最大條數(shù)杨箭,source和sink的batchSize需要小于該值

file(文件管道):

a1.channels.c1.type = file

a1.channels.c1.checkpointDir = #監(jiān)測點文件路徑

a1.channels.c1.useDualCheckpoints = true #監(jiān)測點文件是否備份

a1.channels.c1.backupCheckpointDir = #監(jiān)測點文件備份路徑

a1.channels.c1.dataDirs = #數(shù)據(jù)存儲目錄

6、Flume? sinks

logger(控制臺打印信息):

a1.sinks.k1.type = logger

flume-ng啟動時需要加上:-Dflume.root.logger=INFO,console

avro(往avro? source推送數(shù)據(jù)):

a1.sinks.k1.type = avro

a1.sinks.k1.hostname = localhost #目標(biāo)ip

a1.sinks.k1.port = 44444 #目標(biāo)端口

HDFS(寫數(shù)據(jù)到HDFS):

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = hdfs://192.168.205.131:9000/data/%Y%m%d%H%M? #這個時間的格式需要時間戳來進(jìn)行轉(zhuǎn)換储狭,需要headers里有timestamp

a1.sinks.k1.hdfs.filePrefix = app_name #文件前綴

a1.sinks.k1.hdfs.fileSuffix = .log #文件后綴

a1.sinks.k1.hdfs.inUseSuffix = .tmp #正在寫入文件后綴

a1.sinks.k1.hdfs.rollInterval = 30 #臨時文件轉(zhuǎn)正式文件的時間互婿,單位秒,如果為0辽狈,則不限制慈参,和rollSize、rollCount為或關(guān)系

a1.sinks.k1.hdfs.rollSize = 10485760 #臨時文件轉(zhuǎn)正式文件的大小刮萌,單位byte驮配,如果為0,則不限制

a1.sinks.k1.hdfs.rollCount = 100000 #臨時文件轉(zhuǎn)正式文件記錄條數(shù)着茸,如果為0壮锻,則不限制

a1.sinks.k1.hdfs.round = true #是否啟用時間上的”舍棄”。如果啟用涮阔,則會影響除了%t的其他所有時間表達(dá)式

a1.sinks.k1.hdfs.roundValue = 10#時間上進(jìn)行“舍棄”的值猜绣,這里是舍棄10分鐘以內(nèi)的值,意味著每10分鐘新建一個目錄

a1.sinks.k1.hdfs.roundUnit = minute #時間上進(jìn)行”舍棄”的單位敬特,包含:second,minute,hour

a1.sinks.k1.hdfs.useLocalTimeStamp = true #如果source里沒有timestamp時間戳掰邢,則需要該參數(shù)為true

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市伟阔,隨后出現(xiàn)的幾起案子辣之,更是在濱河造成了極大的恐慌,老刑警劉巖皱炉,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怀估,死亡現(xiàn)場離奇詭異,居然都是意外死亡娃承,警方通過查閱死者的電腦和手機(jī)奏夫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來历筝,“玉大人酗昼,你說我怎么就攤上這事∈嶂恚” “怎么了麻削?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵蒸痹,是天一觀的道長。 經(jīng)常有香客問我呛哟,道長叠荠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任扫责,我火速辦了婚禮榛鼎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鳖孤。我一直安慰自己者娱,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布苏揣。 她就那樣靜靜地躺著黄鳍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪平匈。 梳的紋絲不亂的頭發(fā)上框沟,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天,我揣著相機(jī)與錄音增炭,去河邊找鬼忍燥。 笑死,一個胖子當(dāng)著我的面吹牛弟跑,可吹牛的內(nèi)容都是我干的灾前。 我是一名探鬼主播防症,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼孟辑,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蔫敲?” 一聲冷哼從身側(cè)響起饲嗽,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎奈嘿,沒想到半個月后貌虾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡裙犹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年尽狠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片叶圃。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡袄膏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出掺冠,到底是詐尸還是另有隱情沉馆,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站斥黑,受9級特大地震影響揖盘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锌奴,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一兽狭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鹿蜀,春花似錦椭符、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至琐簇,卻和暖如春蒸健,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背婉商。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工似忧, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人丈秩。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓盯捌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蘑秽。 傳聞我的和親對象是個殘疾皇子饺著,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容