前言
隨著微服務(wù)的往多層分布式方向的發(fā)展矿酵,隨著業(yè)務(wù)的增長(zhǎng),系統(tǒng)的膨脹和升級(jí)控漠。問(wèn)題排查蔓倍,性能分析,架構(gòu)優(yōu)化越來(lái)越復(fù)雜盐捷。因此出現(xiàn)了APM(Application Performance Management)思想偶翅,全鏈路追蹤管理。
發(fā)展
名稱(chēng) | 出現(xiàn)時(shí)間 | 地址 | 備注 |
---|---|---|---|
Dapper | Apr-10 | https://bigbully.github.io/Dapper-translation/ | 谷歌公司發(fā)布的一篇論文碉渡,全鏈路追蹤系統(tǒng)的思想源頭 |
CAT | 2011 | https://github.com/dianping/cat | 國(guó)內(nèi)開(kāi)源 |
Pinpoint | Jul-12 | https://github.com/pinpoint-apm/pinpoint | 比較比較完善也比較有名的APM系統(tǒng)聚谁,頁(yè)面功能完善,對(duì)java友好滞诺,不過(guò)封裝比較死形导,代碼龐大,依賴(lài)hbase习霹,迭代開(kāi)發(fā)麻煩 |
Zipkin | 2012 | https://zipkin.io/pages/extensions_choices.html | 輕量級(jí)APM平臺(tái) |
skywalking | 2017 | https://github.com/apache/skywalking | apache頂級(jí)項(xiàng)目朵耕,比較成熟,支持opentrace協(xié)議 |
jaeger | 2017 | https://github.com/jaegertracing/jaeger | CNCF畢業(yè)項(xiàng)目淋叶,云開(kāi)發(fā)時(shí)代新寵憔披,支持opentrace協(xié)議 |
Opentelemetry | 2019 | https://opentelemetry.io/docs/what-is-opentelemetry/ | CNCF提出可觀測(cè)統(tǒng)一trace,logs爸吮,metrics。Opentelemetry 統(tǒng)一OpentTraceing和OpenCensus望门,統(tǒng)一標(biāo)準(zhǔn)形娇,統(tǒng)一client library(跨語(yǔ)言),collector(支持contrib) |
思路
痛點(diǎn)
借Dapper文章圖片可知筹误,在分布式系統(tǒng)的調(diào)用中桐早,一次請(qǐng)求會(huì)經(jīng)過(guò)龐大系統(tǒng)中的某些服務(wù),如果想觀測(cè)這一次請(qǐng)求中產(chǎn)生的指標(biāo)和日志,以及走過(guò)的路徑哄酝,需要如何實(shí)現(xiàn)友存,在快捷快速接入的同時(shí),不對(duì)整個(gè)分布式系統(tǒng)產(chǎn)生影響是很麻煩的陶衅。
數(shù)據(jù)結(jié)構(gòu)
通過(guò)對(duì)一次請(qǐng)求調(diào)用的分析和抽象屡立,可以定義這樣的一個(gè)數(shù)據(jù)結(jié)構(gòu)〔缶基本上大部分APM系統(tǒng)都是按dapper的思路做的膨俐,因此在數(shù)據(jù)結(jié)構(gòu)上都有相似性。
{
"trace_id": "一次分布式調(diào)用的唯一ID",
"span_id": "當(dāng)前執(zhí)行步驟的唯一ID",
"span_parent_id": "上一次執(zhí)行步驟的唯一ID",
"span_name": "執(zhí)行步驟名稱(chēng)",
"start_time": "當(dāng)前執(zhí)行步驟的開(kāi)始時(shí)間",
"end_time": "當(dāng)前執(zhí)行步驟的結(jié)束時(shí)間",
"tags": "當(dāng)前執(zhí)行步驟的一些標(biāo)簽,比如http.method,系統(tǒng)版本",
"events": "當(dāng)前執(zhí)行步驟的一些事件"
}
一些APM系統(tǒng)的架構(gòu)
Pinpoint
官網(wǎng)定義
抽象
數(shù)據(jù)流程
1罩句,pinpoint采集器采集指標(biāo)焚刺,主要支持java,php门烂。java使用javaagent探針字節(jié)碼注入的方式乳愉,且支持了非常多的中間件包括不僅僅有springboot,netty屯远,kafka等蔓姚,不過(guò)由于pinpoint的開(kāi)發(fā)時(shí)間較早,無(wú)法支持opentraceing協(xié)議氓润。
2赂乐,pinpoint agent采集數(shù)據(jù)后,發(fā)送到Pinpoint Collector中咖气。
3挨措,Pinpoint Collector將trace數(shù)據(jù)寫(xiě)入到hbase中。
4崩溪,Pinpoint web查詢(xún)hbase數(shù)據(jù)浅役,返回前端客戶(hù)。
Jaeger
官方定義
抽象
數(shù)據(jù)流程
1伶唯,同理agent采集指標(biāo)觉既。支持opentracing協(xié)議。
2乳幸,Collector加工數(shù)據(jù)到存儲(chǔ)中瞪讼。主要存儲(chǔ)為elasticsearch,主要存儲(chǔ)索引為三個(gè)(jaeger-span粹断,jaeger-dependances符欠,jaeger-service)
3,spark瓶埋,flink二次加工數(shù)據(jù)到存儲(chǔ)中希柿,主要是拓?fù)鋱D數(shù)據(jù)诊沪。
4,JaegerUI查詢(xún)存儲(chǔ)中的數(shù)據(jù)返回曾撤。如果是要查看指標(biāo)則使用SPM端姚。需要單獨(dú)接一個(gè)Metrics數(shù)據(jù)源。
Opentelemetry解決方案
除了pinpoint挤悉,jaeger業(yè)內(nèi)還有很多優(yōu)秀的APM系統(tǒng)渐裸,比如skywalking,zipkin等尖啡,因此客戶(hù)在接入一個(gè)廠商后橄仆,后期的切換和支持非常麻煩。因此CNCF在2019年統(tǒng)一了OpentTraceing和OpenCensus衅斩。主要統(tǒng)一的方面有三個(gè)盆顾。
1,標(biāo)準(zhǔn)畏梆,或者說(shuō)規(guī)則您宪。
2,客戶(hù)端(client library)奠涌,不同廠商不同的客戶(hù)端宪巨,客戶(hù)接入一個(gè)后就不能接其他的。因此統(tǒng)一了采集器客戶(hù)端并支持跨語(yǔ)言溜畅。
3捏卓,collector,通過(guò)分析和抽象大部分的APM的架構(gòu)慈格,基本上都存在一個(gè)數(shù)據(jù)加工的Collector怠晴,且都綁定了相應(yīng)的存儲(chǔ)系統(tǒng)。因此Opentelemetry統(tǒng)一了Collector浴捆,客戶(hù)可以支持多種數(shù)據(jù)源的輸入和輸出蒜田。與存儲(chǔ)解耦。
官方定義
主要有以下幾個(gè)組件
1)Receivers:
負(fù)責(zé)接收不同格式的 telemetry data选泻,對(duì)于 trace 來(lái)說(shuō)就是 Zipkin冲粤、Jaeger、OpenCensus 以及其自研的 OTLP页眯。除此之外梯捕,還可以支持從 Kafka 中接收以上格式的數(shù)據(jù),可以定制開(kāi)發(fā)窝撵。
2)Processors:
負(fù)責(zé)實(shí)施處理邏輯科阎,如打包、過(guò)濾忿族、修飾锣笨、采樣等等,尾部采樣邏輯就可以在這里實(shí)現(xiàn)道批。
3)Exporters:
負(fù)責(zé)將處理后的 telemetry data 按指定的格式重新輸出到后端服務(wù)中错英,如 Zipkin、Jaeger隆豹、OpenCensus 的 backend椭岩,也可以輸出到 Kafka 或另一組 collector 中,可以定制開(kāi)發(fā)璃赡。
4)Extensions:
提供一些核心流程之外的插件判哥,如分析性能問(wèn)題的 pprof,健康監(jiān)測(cè)的 health 等等碉考。
使用
Collector模式(推薦)
部署模式優(yōu)缺點(diǎn)
1塌计,保證客戶(hù)流量只需要對(duì)內(nèi),安全管理方便侯谁。
2锌仅,中心集群方便做尾采樣。
3墙贱,權(quán)限管理方便热芹。
網(wǎng)關(guān)模式
部署模式優(yōu)缺點(diǎn)
1,簡(jiǎn)單方便惨撇。
2伊脓,客戶(hù)安全權(quán)限控制麻煩。
3魁衙,客戶(hù)端鏈接過(guò)多报腔。網(wǎng)絡(luò)延遲等。
OTEL業(yè)內(nèi)思路
一些以O(shè)TEL思路開(kāi)發(fā)的參考
1纺棺,得物(https://cloud.tencent.com/developer/article/2188712)
2榄笙,騰訊(https://cloud.tencent.com/developer/article/1975542?from=article.detail.2188712&areaSource=106000.8&traceId=RdXXf1V3PpCrKgdhSngsS)
3,阿里(https://mp.weixin.qq.com/s/rgms8ROe6o_2ijEZ2g4Xzg)