一暮蹂、APM產(chǎn)生的原因
進(jìn)入微服務(wù)時(shí)代寞缝,系統(tǒng)的調(diào)用關(guān)系變得服務(wù)。以電商系統(tǒng)為例
該實(shí)例會(huì)通過 RPC 請求庫存服務(wù)仰泻、商品服務(wù)荆陆、訂單服務(wù)、用戶服務(wù)集侯,查詢底層的存儲(chǔ)被啼,獲取相應(yīng)的數(shù)據(jù),最終形成完整的響應(yīng)結(jié)果返回給用戶棠枉。
微服務(wù)化帶來的問題
當(dāng)請求量上升浓体,性能下降,查找性能下降時(shí)辈讶,需要瀏覽多個(gè)服務(wù)和機(jī)器的日志命浴,步驟繁瑣,所以微服務(wù)下問題定位變得困難贱除。
定位問題后生闲,如何計(jì)算擴(kuò)容多少臺(tái)機(jī)器、新增部署多少個(gè)實(shí)例月幌,都需要響應(yīng)數(shù)據(jù)的支撐碍讯,而不是運(yùn)維與開發(fā)拍腦袋的直覺
為了解決這些問題,apm應(yīng)運(yùn)而生
二扯躺、微服務(wù)監(jiān)控分類
微服務(wù)系統(tǒng)的監(jiān)控主要包含以下三個(gè)方面:Logging&Metrics&Tracing
- Logging 就是記錄系統(tǒng)行為的離散事件 -- ELK
例如捉兴,服務(wù)在處理某個(gè)請求時(shí)打印的錯(cuò)誤日志,我們可以將這些日志信息記錄到 ElasticSearch 或是其他存儲(chǔ)中录语,然后通過 Kibana 或是其他工具來分析這些日志了解服務(wù)的行為和狀態(tài)轴术。大多數(shù)情況下,日志記錄的數(shù)據(jù)很分散钦无,并且相互獨(dú)立,比如錯(cuò)誤日志盖袭、請求處理過程中關(guān)鍵步驟的日志等等失暂。
- Metrics 是系統(tǒng)在一段時(shí)間內(nèi)某一方面的某個(gè)度量 -- 阿里上cpu彼宠、硬盤的1分鐘前指標(biāo)統(tǒng)計(jì)
例如,電商系統(tǒng)在一分鐘內(nèi)的請求次數(shù)弟塞。我們常見的監(jiān)控系統(tǒng)中記錄的數(shù)據(jù)都屬于這個(gè)范疇凭峡,例如 Promethus、Open-Falcon 等决记,這些監(jiān)控系統(tǒng)最終給運(yùn)維人員展示的是一張張二維的折線圖摧冀。Metrics 是可以聚合的,例如系宫,為電商系統(tǒng)中每個(gè) HTTP 接口添加一個(gè)計(jì)數(shù)器索昂,計(jì)算每個(gè)接口的 QPS,之后我們就可以通過簡單的加和計(jì)算得到系統(tǒng)的總負(fù)載情況扩借。
- Tracing 即我們常說的分布式鏈路追蹤椒惨。
在微服務(wù)架構(gòu)系統(tǒng)中一個(gè)請求會(huì)經(jīng)過很多服務(wù)處理,調(diào)用鏈路會(huì)非常長潮罪,要確定中間哪個(gè)服務(wù)出現(xiàn)異常是非常麻煩的一件事康谆。通過分布式鏈路追蹤,運(yùn)維人員就可以構(gòu)建一個(gè)請求的視圖嫉到,這個(gè)視圖上展示了一個(gè)請求從進(jìn)入系統(tǒng)開始到返回響應(yīng)的整個(gè)流程沃暗。這樣,就可以從中了解到所有服務(wù)的異常情況何恶、網(wǎng)絡(luò)調(diào)用孽锥,以及系統(tǒng)的性能瓶頸等。
三导而、什么是Tracing
谷歌在 2010 年 4 月發(fā)表了一篇論文《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》介紹了分布式追蹤的概念忱叭,之后很多互聯(lián)網(wǎng)公司都開始根據(jù)這篇論文打造自己的分布式鏈路追蹤系統(tǒng)。前面提到的 APM 系統(tǒng)的核心技術(shù)就是分布式鏈路追蹤今艺。下面通過官方的一個(gè)示例簡單介紹說明什么是 Tracing韵丑。
在一個(gè)分布式系統(tǒng)中,追蹤一個(gè)事務(wù)或者調(diào)用流一般如上圖所示虚缎。雖然這種圖對于看清各組件的組合關(guān)系很有用撵彻,但是,它不能很好顯示組件的調(diào)用時(shí)間实牡,是串行調(diào)用還是并行調(diào)用陌僵,如果展現(xiàn)更復(fù)雜的調(diào)用關(guān)系,會(huì)更加復(fù)雜创坞,甚至無法畫出這樣的圖碗短。
一種更有效的展現(xiàn)方式就是下圖這樣,這是一個(gè)典型的 trace 視圖题涨,這種展現(xiàn)方式增加顯示了執(zhí)行時(shí)間的上下文偎谁,相關(guān)服務(wù)間的層次關(guān)系总滩,進(jìn)程或者任務(wù)的串行或并行調(diào)用關(guān)系。這樣的視圖有助于發(fā)現(xiàn)系統(tǒng)調(diào)用的關(guān)鍵路徑巡雨。通過關(guān)注關(guān)鍵路徑的執(zhí)行過程闰渔,開發(fā)團(tuán)隊(duì)就可以專注于優(yōu)化路徑中的關(guān)鍵服務(wù),最大幅度的提升系統(tǒng)性能铐望。例如下圖中冈涧,我們可以看到請求串行的調(diào)用了授權(quán)服務(wù)、訂單服務(wù)以及資源服務(wù)正蛙,在資源服務(wù)中又并行的執(zhí)行了三個(gè)子任務(wù)督弓。我們還可以看到,在這整個(gè)請求的生命周期中跟畅,資源服務(wù)耗時(shí)是最長的咽筋。
四、常見APM系統(tǒng)
APM 系統(tǒng)(Application Performance Management徊件,即應(yīng)用性能管理)是對企業(yè)的應(yīng)用系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控奸攻,實(shí)現(xiàn)對應(yīng)用性能管理和故障定位的系統(tǒng)化解決方案。
國內(nèi)比較常見的 APM 如下:
CAT: 由國內(nèi)美團(tuán)點(diǎn)評(píng)開源的虱痕,基于 Java 語言開發(fā)睹耐,目前提供 Java、C/C++部翘、Node.js硝训、Python、Go 等語言的客戶端新思,監(jiān)控?cái)?shù)據(jù)會(huì)全量統(tǒng)計(jì)窖梁。國內(nèi)很多公司在用,例如美團(tuán)點(diǎn)評(píng)夹囚、攜程纵刘、拼多多等。CAT 需要開發(fā)人員手動(dòng)在應(yīng)用程序中埋點(diǎn)荸哟,對代碼侵入性比較強(qiáng)假哎。
Zipkin: 由 Twitter 公司開發(fā)并開源,Java 語言實(shí)現(xiàn)鞍历。侵入性相對于 CAT 要低一點(diǎn)舵抹,需要對web.xml 等相關(guān)配置文件進(jìn)行修改,但依然對系統(tǒng)有一定的侵入性劣砍。Zipkin 可以輕松與 Spring Cloud 進(jìn)行集成惧蛹,也是 Spring Cloud 推薦的 APM 系統(tǒng)。
Pinpoint: 韓國團(tuán)隊(duì)開源的 APM 產(chǎn)品,運(yùn)用了字節(jié)碼增強(qiáng)技術(shù)赊淑,只需要在啟動(dòng)時(shí)添加啟動(dòng)參數(shù)即可實(shí)現(xiàn) APM 功能爵政,對代碼無侵入。目前支持 Java 和 PHP 語言陶缺,底層采用 HBase 來存儲(chǔ)數(shù)據(jù),探針收集的數(shù)據(jù)粒度非常細(xì)洁灵,但性能損耗較大饱岸,因其出現(xiàn)的時(shí)間較長,完成度也很高徽千,文檔也較為豐富苫费,應(yīng)用的公司較多。
SkyWalking: 國人開源的產(chǎn)品双抽,2019 年 4 月 17 日 SkyWalking 從 Apache 基金會(huì)的孵化器畢業(yè)成為頂級(jí)項(xiàng)目百框。目前 SkyWalking 支持 Java、.Net牍汹、Node.js 等探針铐维,數(shù)據(jù)存儲(chǔ)支持MySQL、ElasticSearch等慎菲。 SkyWalking 與 Pinpoint 相同嫁蛇,Java 探針采用字節(jié)碼增強(qiáng)技術(shù)實(shí)現(xiàn),對業(yè)務(wù)代碼無侵入露该。探針采集數(shù)據(jù)粒度相較于 Pinpoint 來說略粗睬棚,但性能表現(xiàn)優(yōu)秀。目前解幼,SkyWalking 增長勢頭強(qiáng)勁抑党,社區(qū)活躍,中文文檔齊全撵摆,沒有語言障礙底靠,支持多語言探針,這些都是 SkyWalking 的優(yōu)勢所在台汇,還有就是 SkyWalking 支持很多框架苛骨,包括很多國產(chǎn)框架,例如苟呐,Dubbo痒芝、gRPC、SOFARPC 等等牵素,也有很多開發(fā)者正在不斷向社區(qū)提供更多插件以支持更多組件無縫接入 SkyWalking严衬。
還有很多不開源的 APM 系統(tǒng),例如笆呆,淘寶鷹眼请琳、Google Dapper 等等粱挡,不再展開介紹了。
五俄精、SkyWalking 整體架構(gòu)與核心概念
SkyWalking 是一個(gè)基于 OpenTracing 規(guī)范的询筏、開源的 APM 系統(tǒng),它是專門為微服務(wù)架構(gòu)以及云原生架構(gòu)而設(shè)計(jì)的竖慧。從 SkyWalking 6.0 開始嫌套,SkyWalking 將自身定義為一個(gè)觀測性分析平臺(tái)(Observability Analysis Platform,OAP)圾旨。
SkyWalking 的核心功能有:
服務(wù)踱讨、服務(wù)實(shí)例、端點(diǎn)指標(biāo)分析砍的。
服務(wù)拓?fù)鋱D分析
服務(wù)痹筛、服務(wù)實(shí)例和端點(diǎn)(Endpoint)SLA 分析
慢查詢檢測
告警
SkyWalking 如下特點(diǎn):
多語言自動(dòng)探針,支持 Java廓鞠、.NET Code 等多種語言帚稠。
為多種開源項(xiàng)目提供了插件,為 Tomcat诫惭、 HttpClient翁锡、Spring、RabbitMQ夕土、MySQL 等常見基礎(chǔ)設(shè)施和組件提供了自動(dòng)探針馆衔。
微內(nèi)核 + 插件的架構(gòu),存儲(chǔ)怨绣、集群管理角溃、使用插件集合都可以進(jìn)行自由選擇。
支持告警篮撑。
優(yōu)秀的可視化效果减细。
架構(gòu)圖如下:
SkyWalking 分為三個(gè)核心部分:
Agent(探針):Agent 運(yùn)行在各個(gè)服務(wù)實(shí)例中,負(fù)責(zé)采集服務(wù)實(shí)例的 Trace 赢笨、Metrics 等數(shù)據(jù)未蝌,然后通過 gRPC 方式上報(bào)給 SkyWalking 后端。
OAP:SkyWalking 的后端服務(wù)茧妒,其主要責(zé)任有兩個(gè)萧吠。
一個(gè)是負(fù)責(zé)接收 Agent 上報(bào)上來的 Trace、Metrics 等數(shù)據(jù)桐筏,交給 Analysis Core (涉及 SkyWalking OAP 中的多個(gè)模塊)進(jìn)行流式分析纸型,最終將分析得到的結(jié)果寫入持久化存儲(chǔ)中。SkyWalking 可以使用 ElasticSearch、H2狰腌、MySQL 等作為其持久化存儲(chǔ)除破,一般線上使用 ElasticSearch 集群作為其后端存儲(chǔ)。
另一個(gè)是負(fù)責(zé)響應(yīng) SkyWalking UI 界面發(fā)送來的查詢請求琼腔,將前面持久化的數(shù)據(jù)查詢出來瑰枫,組成正確的響應(yīng)結(jié)果返回給 UI 界面進(jìn)行展示。
- UI 界面:SkyWalking 前后端進(jìn)行分離丹莲,該 UI 界面負(fù)責(zé)將用戶的查詢操作封裝為 GraphQL 請求提交給 OAP 后端觸發(fā)后續(xù)的查詢操作躁垛,待拿到查詢結(jié)果之后會(huì)在前端負(fù)責(zé)展示。
舉例說明:三大核心概念
Service(服務(wù)):用戶服務(wù)是一個(gè)提供獨(dú)立功能的模塊圾笨,單獨(dú)部署成一個(gè)集群并對外提供服務(wù),這就是 SkyWalking 中的 Service(服務(wù))逊谋,這與微服務(wù)架構(gòu)中的一個(gè)服務(wù)幾乎是一樣的擂达。
ServiceInstance(服務(wù)實(shí)例):用戶服務(wù)的集群是由多個(gè)部署了同一套代碼的 JVM 節(jié)點(diǎn)構(gòu)成的,對外提供了相同的處理能力胶滋,當(dāng)請求進(jìn)入系統(tǒng)時(shí)板鬓,由接入層進(jìn)行負(fù)載均衡選擇一個(gè)節(jié)點(diǎn)處理請求。用戶服務(wù)中一個(gè) JVM 節(jié)點(diǎn)即為一個(gè) ServiceInstance(服務(wù)實(shí)例)究恤。
Endpoint(端點(diǎn)):服務(wù)對外暴露的接口俭令,例如這里的 "/query/userInfo" 接口,或是其他的 RPC 接口部宿,就是 SkyWalking 中的 Endpoint(端點(diǎn))抄腔。