一娃承、背景
最近公司用到了filebeat,所以學習了下這個技術桩匪。filebeat是一個輕量級的日志采集工具打瘪,使用golang語言開發(fā),可以將日志轉(zhuǎn)發(fā)到es,kafka等闺骚。官方對filebeat提供了最全面的支持彩扔。filebeat的性能非常好,部署簡單僻爽,是一個非常理想的文件采集工具虫碉。相比logstash它的內(nèi)存占用更少,filebeat開發(fā)的目的也是為了替換logstash胸梆。當然也有缺點敦捧,比如filebeat官方提供的功能比較單一,往往無法滿足我們的需求碰镜,我們經(jīng)常把日志采集到kafka绞惦,然后借助flink等工具繼續(xù)處理。
二洋措、原理
如下圖是filebeat的工作流程。首先當業(yè)務寫入日志后杰刽,filebeat的Harvester模塊會采集一行或者多行日志菠发,然后Harvester聚合日志發(fā)送到輸出方,如es贺嫂、kafka滓鸠。為了保存文件狀態(tài),Harvester會將日志的偏移量記錄到registry文件中第喳。每個輸入都對應一個registry文件糜俗,如果filebeat重啟了,會從registry文件恢復曲饱。那filebeat如何保證日志至少發(fā)送成功一次呢悠抹?實際也是用的這個registry文件,發(fā)送出后后扩淀,如果沒有收到成功確認楔敌,那么filebat會重新發(fā)送,直到成功驻谆。
三卵凑、docker部署
考慮到docker的優(yōu)勢,如一致的運行環(huán)境胜臊,輕松的遷移等勺卢,我們采用docker部署filebeat。下面是docker-compose部署的例子
3.1象对、配置docker-compose文件
version: "3"
services:
elasticsearch:
image: elasticsearch:7.11.1
container_name: elasticsearch
hostname: elasticsearch1
environment:
- discovery.type=single-node
- bootstrap.memory_lock=true
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
ports:
- 9200:9200
- 9300:9300
networks:
- "elk-net"
kibana:
image: docker.elastic.co/kibana/kibana:7.1.1
environment:
- SERVER_NAME=kibana
- ELASTICSEARCH_URL=http://elasticsearch1:9200
- XPACK_MONITORING_ENABLED=true
ports:
- "5601:5601"
networks:
- "elk-net"
depends_on:
- "elasticsearch"
filebeat:
image: docker.elastic.co/beats/filebeat:7.1.1
volumes:
- ./filebeat/logs/nginx:/var/log/nginx/
- ./filebeat/logs/biz:/var/log/biz/
- ./filebeat/logs/log4j:/var/log/log4j/
- ./filebeat/filebeat/filebeat.yml:/usr/share/filebeat/filebeat.yml
networks:
- "elk-net"
depends_on:
- "elasticsearch"
- "kibana"
networks:
elk-net:
這里將采集log4j黑忱,nginx和業(yè)務日志到es,然后展示到kibana
3.2、配置filebeat
# 詳情如下:
filebeat.inputs:
- type: log
enabled: true
paths:
- /var/log/nginx/*.log
scan_frequency: 10s
tail_files: true
fields:
index_name: "nginx_log"
- type: log
enabled: true
#不以[開頭的行都合并到上一行的末尾
multiline.type: pattern
multiline.pattern: '^[[:space:]]+(at|\.{3})[[:space:]]+\b|^Caused by:'
multiline.negate: false
multiline.match: after
paths:
- /var/log/log4j/*.log
fields:
index_name: "log4j_log"
- type: log
enabled: true
multiline.type: pattern
multiline.pattern: '^[[:space:]]+(at|\.{3})[[:space:]]+\b|^Caused by:'
multiline.negate: false
multiline.match: after
fields:
index_name: "biz_log"
scan_frequency: 10s
pipeline: "extract-traceid-pipeline"
paths:
- /var/log/biz/*.log
# # # 7.x的版本中需要禁用此索引生命周期杨何,否則在指定es索引名字的時候會有問題
setup.ilm.enabled: false
setup.template.name: "my-log"
setup.template.pattern: "my-*"
setup.template.enabled: true
setup.template.overwrite: false
# 輸出到es
output.elasticsearch:
#worker: 1
#bulk_max_size: 1500
hosts: ["elasticsearch1:9200"]
index: "pb-%{[fields.index_name]}-*"
indices:
- index: "pb-nginx-%{+yyyy.MM.dd}"
when.equals:
fields.index_name: "nginx_log"
- index: "pb-log4j-%{+yyyy.MM.dd}"
when.equals:
fields.index_name: "log4j_log"
- index: "pb-biz-%{+yyyy.MM.dd}"
when.equals:
fields.index_name: "biz_log"
pipeline加到es
curl -H "Content-Type: application/json" -XPUT 'http://127.0.0.1:9200/_ingest/pipeline/extract-traceid-pipeline' -d@extract-traceid-pipeline.json
效果如下
四酱塔、filebeat關鍵參數(shù)
4.1、如何區(qū)分不同的日志
- fields危虱,添加附件字段羊娃,可以使values,arrays埃跷,dictionaries或者任何嵌套數(shù)據(jù)蕊玷。在輸出的時候也可以加上條件語句判斷,when.equals弥雹,然后輸出到不同的index
- 輸入添加tag字段垃帅,可以用于分組
4.2、如何提取參數(shù)剪勿,以trace為例
這個使用gork語法可以提取贸诚。具體步驟如下
- 編寫pipleline文件
"description" : "extract-traceid-pipeline",
"processors" : [
{
"grok" :{
"field" : "message",
"patterns" : ["ERROR\\|%{DATA:trace_id}\\|"]
}
}
]
}
- 測試效果
https://www.5axxw.com/tools/v2/grok.html
寫入到es和filebeat配置文件
curl -H "Content-Type: application/json" -XPUT 'http://127.0.0.1:9200/_ingest/pipeline/extract-traceid-pipeline' -d@extract-traceid-pipeline.json
查看寫入效果
最終效果
4.2、如何收集java異常堆棧
multiline.type: pattern
multiline.pattern: '^[[:space:]]+(at|\.{3})[[:space:]]+\b|^Caused by:'
multiline.negate: false
multiline.match: after
4.3厕吉、pipleline為什么不起作用
官網(wǎng)是放在了out中酱固,但是這個版本實際配置不起作用,需要加到input中
- type: log
enabled: true
multiline.type: pattern
multiline.pattern: '^[[:space:]]+(at|\.{3})[[:space:]]+\b|^Caused by:'
multiline.negate: false
multiline.match: after
fields:
index_name: "biz_log"
scan_frequency: 10s
pipeline: "extract-traceid-pipeline"
paths:
- /var/log/biz/*.log
4.4头朱、業(yè)務日志比較復雜运悲,gork無法處理怎么辦
這種情況一般是輸出到kafka,然后由其他中間件處理项钮,如flink班眯。
output.kafka:
# initial brokers for reading cluster metadata
hosts: ["kafka1:9092", "kafka2:9092", "kafka3:9092"]
# message topic selection + partitioning
topic: '%{[fields.log_topic]}'
partition.round_robin:
reachable_only: false
required_acks: 1
compression: gzip
max_message_bytes: 1000000
4.5、如何提高采集效率烁巫?
1署隘、配置bulk_max_size參數(shù)即可,這是output.elasticsearch的屬性亚隙,控制發(fā)送給Elasticsearch的bulk API中定踱,每批數(shù)據(jù)能包含多少條event,默認情況下恃鞋,我們是每行數(shù)據(jù)一個document(或者說是event)崖媚,因此,每次filebeat默認只會發(fā)送50行數(shù)據(jù)恤浪,因此畅哑,當我們添加進來的數(shù)據(jù)由幾十萬行的時候,可以簡單推算水由,我們需要推送多少次bulk request才能完成這個文件的數(shù)據(jù)錄入
2荠呐、worker這個也是output.elasticsearch的屬性,我們可以指定filebeat使用多高的并發(fā)來往Elastic發(fā)送數(shù)據(jù),我們也可以適當?shù)脑黾舆@個值泥张,比如我們的ES集群有3個data節(jié)點 hosts: ["10.0.07:9200","10.0.08:9200","10.0.09:9200"]呵恢,我們可以把這個worker設為 3。
3媚创、harvester_buffer_size 這個是Log input的屬性渗钉,這個屬性限定了單個文件采集器harvester每次讀取文件的大小,默認的大小是16K钞钙。如果我們要增加某些文件的讀取吞吐鳄橘,可以調(diào)整這個值的大小∶⒘叮可以通過定義多個input瘫怜,每個input單獨指定的方式來確定不同文件的吞吐大小
參考文檔
- 1、官方文檔
- 2本刽、logstash 和filebeat 是什么關系
- 3鲸湃、區(qū)分來源