vivo 服務(wù)端監(jiān)控體系建設(shè)實(shí)踐

作者：vivo 互聯(lián)網(wǎng)服務(wù)器團(tuán)隊(duì)- Chen Ningning

本文根據(jù)“2022 vivo開發(fā)者大會(huì)"現(xiàn)場演講內(nèi)容整理而成。

經(jīng)過幾年的平臺(tái)建設(shè)罗侯，vivo監(jiān)控平臺(tái)產(chǎn)品矩陣日趨完善器腋，在vivo終端龐大的用戶群體下，承載業(yè)務(wù)運(yùn)行的服務(wù)數(shù)量眾多钩杰，監(jiān)控服務(wù)體系是業(yè)務(wù)可用性保障的重要一環(huán)纫塌，監(jiān)控產(chǎn)品全場景覆蓋生產(chǎn)環(huán)境各個(gè)環(huán)節(jié)。從事前發(fā)現(xiàn)讲弄，事中告警措左、定位、恢復(fù)垂睬，事后復(fù)盤總結(jié)媳荒，監(jiān)控服務(wù)平臺(tái)都提供了豐富的工具包抗悍。從以前的水平拆分，按場景建設(shè)钳枕，到后來的垂直劃分缴渊，整合統(tǒng)一，降低平臺(tái)割裂感鱼炒。同時(shí)從可觀測性衔沼、AIOps、云原生等方向昔瞧，監(jiān)控平臺(tái)也進(jìn)行了建設(shè)實(shí)踐指蚁。未來vivo監(jiān)控平臺(tái)將會(huì)向著全場景、一站式自晰、全鏈路凝化、智能化方向不斷探索前行。

監(jiān)控服務(wù)平臺(tái)是自研的酬荞、覆蓋全場景的可用性保障系統(tǒng)搓劫。經(jīng)過多年深耕，vivo監(jiān)控團(tuán)隊(duì)已經(jīng)成體系構(gòu)筑起一整套穩(wěn)定性保障系統(tǒng)混巧，隨著云原生可觀測技術(shù)變革不斷深化枪向，監(jiān)控團(tuán)隊(duì)如何掌舵前行？下面就平臺(tái)的建設(shè)歷程咧党、思考秘蛔、探索，做一下簡單介紹傍衡。

一深员、監(jiān)控體系建設(shè)之道

1.1 監(jiān)控建設(shè)歷程

回顧監(jiān)控建設(shè)歷程，最初采用Zabbix聪舒，與告警中心的組合實(shí)現(xiàn)簡易監(jiān)控辨液。隨著業(yè)務(wù)的發(fā)展在復(fù)雜監(jiān)控場景和數(shù)據(jù)量不斷增長的情況下，這種簡易的組合就顯的捉襟見肘箱残。所以從2018年開始我們開啟了自研之路滔迈，最開始我們建設(shè)了應(yīng)用監(jiān)控、日志監(jiān)控被辑、撥測監(jiān)控解決了很大一部分監(jiān)控場景沒有覆蓋的問題燎悍；2019年我們建設(shè)了基礎(chǔ)監(jiān)控、自定義監(jiān)控等盼理，完成了主要監(jiān)控場景的基本覆蓋谈山；2020年我們在完善前期監(jiān)控產(chǎn)品的同時(shí)，進(jìn)一步對(duì)周邊產(chǎn)品進(jìn)行了建設(shè)宏怔；隨著AI技術(shù)的不斷成熟奏路，我們從2021年開始也進(jìn)行了轉(zhuǎn)型升級(jí)畴椰，先后建設(shè)了故障定位平臺(tái)、統(tǒng)一告警平臺(tái)有了這些平臺(tái)后我們發(fā)現(xiàn)鸽粉，要想進(jìn)一步提升平臺(tái)價(jià)值斜脂，數(shù)據(jù)和平臺(tái)的統(tǒng)一至關(guān)重要；所以從2022年開始建設(shè)了統(tǒng)一監(jiān)控平臺(tái)触机，也就是將基礎(chǔ)監(jiān)控帚戳、應(yīng)用監(jiān)控和自定義監(jiān)控進(jìn)行了統(tǒng)一，統(tǒng)一監(jiān)控包含了統(tǒng)一配置服務(wù)和統(tǒng)一檢測服務(wù)儡首。從監(jiān)控的建設(shè)歷程來看片任，我們一路覆蓋了IaaS、PaaS蔬胯、DaaS对供、CaaS等平臺(tái)。我們的職能也從DevOps向AIOps邁進(jìn)氛濒。

1.2 監(jiān)控能力矩陣

講了監(jiān)控的發(fā)展歷程犁钟，那么這些監(jiān)控產(chǎn)品在我們的生產(chǎn)環(huán)境中是如何分布的呢？要想支撐數(shù)以萬計(jì)的業(yè)務(wù)運(yùn)行泼橘，需要龐雜的系統(tǒng)支撐，服務(wù)器迈勋、網(wǎng)絡(luò)環(huán)境炬灭、基礎(chǔ)組件等，都需要監(jiān)控系統(tǒng)保障它的穩(wěn)定性靡菇。我們將監(jiān)控的對(duì)象分為五層重归，在基礎(chǔ)設(shè)施層，包含了網(wǎng)絡(luò)設(shè)備厦凤、服務(wù)器鼻吮、存儲(chǔ)硬件等，這一層我們通過VGW監(jiān)控對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行監(jiān)控较鼓，VGW是Vivo Gateway的縮寫椎木，類似于LVS；通過自定義監(jiān)控博烂，對(duì)機(jī)房進(jìn)行監(jiān)控香椎；系統(tǒng)服務(wù)器層，我們定義的監(jiān)控對(duì)象是服務(wù)運(yùn)行依賴的環(huán)境禽篱，通過主機(jī)監(jiān)控對(duì)物理機(jī)畜伐、虛擬機(jī)等監(jiān)控，當(dāng)前容器在云原生技術(shù)體系中躺率，已然成為微服務(wù)運(yùn)行的最佳載體玛界，所以對(duì)容器的監(jiān)控必不可少万矾；系統(tǒng)服務(wù)層，包含了各種數(shù)據(jù)庫產(chǎn)品慎框、大數(shù)據(jù)組件等良狈，在這一層主要通過自定義監(jiān)控檢測、告警鲤脏；業(yè)務(wù)應(yīng)用層们颜，主要有應(yīng)用服務(wù)，我們通過應(yīng)用監(jiān)控對(duì)業(yè)務(wù)鏈路信息進(jìn)行監(jiān)控猎醇；客戶體驗(yàn)層窥突，我們定義了端上的訪問質(zhì)量，由宙斯平臺(tái)實(shí)現(xiàn)監(jiān)控硫嘶。前面我們講了監(jiān)控能力矩陣阻问，下面我們具體介紹一下監(jiān)控的范圍和整個(gè)平臺(tái)的能力。

1.3 監(jiān)控對(duì)象范圍

監(jiān)控對(duì)象涉及網(wǎng)絡(luò)沦疾、主機(jī)称近、基礎(chǔ)服務(wù)等。面對(duì)各地機(jī)房我們做到了監(jiān)控全覆蓋哮塞，為滿足各類環(huán)境部署訴求刨秆，我們可以做到針對(duì)不同環(huán)境的監(jiān)控。我們支持多種采集方式忆畅，SDK和API采集主要應(yīng)用在自定義監(jiān)控場景衡未，Agent主要采集主機(jī)類指標(biāo)，采集上來的時(shí)序數(shù)據(jù)經(jīng)過預(yù)聚合家凯、統(tǒng)一的數(shù)據(jù)清洗缓醋，然后存儲(chǔ)在TSDB數(shù)據(jù)庫。針對(duì)海量數(shù)據(jù)存儲(chǔ)我們采用了數(shù)據(jù)降精绊诲，寬表多維多指標(biāo)等方案送粱。我們常用的檢測算法有恒值檢測、突變檢測掂之、同比檢測等突那，同時(shí)還支持了無數(shù)據(jù)檢測梁棠、多指標(biāo)組合檢測顺呕，檢測出現(xiàn)的異常我們會(huì)形成一個(gè)問題端礼，問題在經(jīng)過一系列的收斂后發(fā)出告警，我們有多種告警通道冯乘，支持告警合并洽胶、認(rèn)領(lǐng)、升級(jí)等，需要展示的指標(biāo)數(shù)據(jù)我們提供了豐富的自定義指標(biāo)看板姊氓，對(duì)使用頻率高固化場景丐怯，我們提供了模板化配置方案。有了完備的監(jiān)控體系翔横，那么系統(tǒng)的關(guān)鍵指標(biāo)和監(jiān)控對(duì)象體量如何读跷？

1.4 監(jiān)控系統(tǒng)體量

當(dāng)前監(jiān)控服務(wù)體系保障著x萬+的主機(jī)實(shí)例，x萬+的DB實(shí)例禾唁，每天處理x千億條各類指標(biāo)和日志效览，對(duì)x千+的域名做到秒級(jí)監(jiān)控，對(duì)x萬+的容器實(shí)例監(jiān)控荡短，每天從統(tǒng)一告警發(fā)出的各類告警達(dá)到x十萬+ 丐枉，對(duì)主機(jī)實(shí)例的監(jiān)控覆蓋率達(dá)到x %，監(jiān)控平臺(tái)通過不斷的探索實(shí)踐掘托，實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)計(jì)算存儲(chǔ)瘦锹，當(dāng)前對(duì)核心業(yè)務(wù)的告警延遲在x秒以內(nèi)，告警召回率大于x %闪盔。

1.5 監(jiān)控系統(tǒng)面臨挑戰(zhàn)

雖然現(xiàn)階段取得了一些成果弯院，但是目前仍然面臨很多挑戰(zhàn)，主要分為三大類：

部署環(huán)境復(fù)雜

對(duì)數(shù)以萬計(jì)的主機(jī)和容器泪掀，實(shí)時(shí)采集計(jì)算是一項(xiàng)困難的事情听绳；面對(duì)各地機(jī)房監(jiān)控，部署過程中依賴項(xiàng)多异赫，維護(hù)工作復(fù)雜辫红；對(duì)海量數(shù)據(jù)計(jì)算存儲(chǔ)，保障監(jiān)控服務(wù)穩(wěn)定性祝辣、可用性難度大。

平臺(tái)系統(tǒng)繁多

當(dāng)前系統(tǒng)還存在割裂切油，用戶體驗(yàn)不強(qiáng)蝙斜；數(shù)據(jù)割裂，沒有從底層融合在一起澎胡，對(duì)于數(shù)據(jù)組合使用形成挑戰(zhàn)孕荠。

新技術(shù)挑戰(zhàn)

首先基于容器的監(jiān)控方案，對(duì)傳統(tǒng)監(jiān)控方案形成挑戰(zhàn)攻谁，當(dāng)前對(duì)Prometheus指標(biāo)存儲(chǔ)處在探索階段稚伍，暫時(shí)沒有標(biāo)準(zhǔn)的解決方案，但是面對(duì)快速增長的數(shù)據(jù)量戚宦，新組件的探索試錯(cuò)成本相對(duì)較高个曙。

二、監(jiān)控服務(wù)體系架構(gòu)

2.1 產(chǎn)品架構(gòu)

產(chǎn)品架構(gòu)的能力服務(wù)層受楼，我們定義了采集能力垦搬、檢測能力呼寸、告警能力等；功能層我們對(duì)這些能力做了具體實(shí)現(xiàn)猴贰，我們將監(jiān)控分為主機(jī)对雪、容器、DB等9類場景米绕，展示層主要由Dashboard提供靈活的圖表配置能力瑟捣，日志中心負(fù)責(zé)日志查詢，移動(dòng)端可以對(duì)告警信息進(jìn)行認(rèn)領(lǐng)栅干、屏蔽迈套。

2.2 技術(shù)架構(gòu)

技術(shù)架構(gòu)層分為采集、計(jì)算非驮、存儲(chǔ)交汤、可視化幾大塊，首先在采集層我們通過各種采集方式進(jìn)行指標(biāo)采集劫笙；上報(bào)的數(shù)據(jù)主要通過Bees-Bus進(jìn)行傳輸芙扎，Bees-Bus是一款公司自研的分布式、高可用的數(shù)據(jù)收集系統(tǒng)填大，指標(biāo)經(jīng)過Bees-Bus之后寫入Kafka戒洼，隨著Pulsar的受關(guān)注度與使用量的顯著增加，我們也在這方面進(jìn)行了一定的探索允华；計(jì)算層我們經(jīng)歷了Spark圈浇、Flink、KafkaStream幾個(gè)階段的探索靴寂，基本實(shí)現(xiàn)了計(jì)算層技術(shù)棧收歸到KafkaStream磷蜀；數(shù)據(jù)主要存儲(chǔ)在Druid，當(dāng)前有190+節(jié)點(diǎn)的Druid集群百炬。Opentsdb和Hive早期應(yīng)用在主機(jī)監(jiān)控場景褐隆，隨著業(yè)務(wù)發(fā)展其性能已經(jīng)不能勝任當(dāng)前的寫入和查詢需求，所以逐步被舍棄剖踊。

當(dāng)前我們選用了VictoriaMetrics作為Prometheus的遠(yuǎn)端存儲(chǔ)庶弃，日志信息存儲(chǔ)在ES中，目前我們有250+的ES節(jié)點(diǎn)德澈。服務(wù)層中各類監(jiān)控場景的元數(shù)據(jù)歇攻，都由統(tǒng)一元數(shù)據(jù)服務(wù)提供；各類檢測規(guī)則梆造、告警規(guī)則都由統(tǒng)一配置服務(wù)維護(hù)缴守，統(tǒng)一告警服務(wù)則負(fù)責(zé)告警的收斂、合并、發(fā)送等斧散。Grafana則主要用作自監(jiān)控告警供常。

2.3 交互流程

在監(jiān)控架構(gòu)的基礎(chǔ)上，我們介紹一下整體交互流程鸡捐，采集規(guī)則由統(tǒng)一元數(shù)據(jù)服務(wù)管理栈暇，并主動(dòng)下發(fā)到VCS-Master，VCS-Master主要用來任務(wù)下發(fā)箍镜，Agent執(zhí)行結(jié)果數(shù)據(jù)接收源祈，任務(wù)查詢和配置管理等，Agent會(huì)定期從VCS-Master拉取緩存的采集規(guī)則色迂，指標(biāo)經(jīng)過Bees-Bus雙寫到Kafka香缺，由ETL程序?qū)χ笜?biāo)數(shù)據(jù)消費(fèi)，然后做清洗和計(jì)算歇僧，最后統(tǒng)一寫入到存儲(chǔ)服務(wù)中图张，統(tǒng)一配置服務(wù)下發(fā)檢測規(guī)則到異常檢測服務(wù)，檢測出的異常信息推送到Kafka诈悍，由告警代理服務(wù)對(duì)異常信息進(jìn)行富化祸轮，處理好的數(shù)據(jù)推到Kafka，然后由統(tǒng)一告警服務(wù)消費(fèi)處理侥钳。在存儲(chǔ)服務(wù)之上适袜，我們做了一層查詢網(wǎng)關(guān)，所有的查詢會(huì)經(jīng)過網(wǎng)關(guān)代理舷夺。

三苦酱、可用性體系構(gòu)建與保障

3.1 可用性體系構(gòu)建

前面說了監(jiān)控服務(wù)體系整體架構(gòu)，那么監(jiān)控產(chǎn)品如何服務(wù)于業(yè)務(wù)可用性给猾。我們將業(yè)務(wù)穩(wěn)定性在時(shí)間軸上進(jìn)行分割疫萤，不同的時(shí)段有不同的系統(tǒng)保障業(yè)務(wù)可用性，當(dāng)前我們主要關(guān)注MTTD和MTTR敢伸，告警延遲越小發(fā)現(xiàn)故障的速度也就越快给僵，系統(tǒng)維修時(shí)間越短說明系統(tǒng)恢復(fù)速度越快，我們將MTTR指標(biāo)拆解細(xì)化然后各個(gè)擊破详拙，最終達(dá)成可用性保障要求。vivo監(jiān)控服務(wù)體系提供了蔓同，涵蓋在穩(wěn)定性建設(shè)中需要的故障預(yù)防饶辙、故障發(fā)現(xiàn)等全場景工具包，監(jiān)控平臺(tái)提供了產(chǎn)品工具斑粱，那么與運(yùn)維人員弃揽，研發(fā)人員是怎樣協(xié)作配合的？

3.2 系統(tǒng)可用性保障

當(dāng)監(jiān)控對(duì)象有問題時(shí)，監(jiān)控系統(tǒng)就會(huì)發(fā)送告警給運(yùn)維人員或業(yè)務(wù)開發(fā)矿微，他們通過查看相關(guān)指標(biāo)修復(fù)問題痕慢。使用過程中運(yùn)維人員的訴求和疑問，由監(jiān)控平臺(tái)產(chǎn)品和開發(fā)協(xié)同配合解決涌矢，我們通過運(yùn)營指標(biāo)掖举，定期梳理出不合理的告警，將對(duì)應(yīng)的檢測規(guī)則同步給運(yùn)維同學(xué)娜庇，然后制定調(diào)整計(jì)劃塔次，后期我們計(jì)劃結(jié)合智能檢測，做到零配置就能檢測出異常指標(biāo)名秀。通過監(jiān)控開發(fā)励负、運(yùn)維人員和業(yè)務(wù)開發(fā)一起協(xié)同配合，保障業(yè)務(wù)的可用性匕得。

3.3 監(jiān)控系統(tǒng)可用性

除了保障業(yè)務(wù)可用性外继榆，監(jiān)控系統(tǒng)自身的可用性保障也是一個(gè)重要的課題。為了保障Agent存活汁掠，我們構(gòu)建了多種維活機(jī)制略吨，保障端上指標(biāo)采集正常。數(shù)據(jù)經(jīng)過Bees-Bus之后调塌，會(huì)雙寫到兩個(gè)機(jī)房晋南，當(dāng)有一個(gè)機(jī)房出現(xiàn)故障，會(huì)快速切到另一個(gè)機(jī)房羔砾，保障核心業(yè)務(wù)不受損负间。數(shù)據(jù)鏈路的每一層都有自監(jiān)控。監(jiān)控平臺(tái)通過Grafana監(jiān)控告警姜凄。

3.4 復(fù)雜場景下依托監(jiān)控解決問題手段監(jiān)控能力矩陣

隨著公司業(yè)務(wù)發(fā)展政溃，業(yè)務(wù)模型、部署架構(gòu)越來越復(fù)雜态秧，讓故障定位很困難董虱，定位問題成本高。而監(jiān)控系統(tǒng)在面對(duì)復(fù)雜申鱼、異構(gòu)愤诱、調(diào)用關(guān)系冗長的系統(tǒng)時(shí)就起到了重要作用。在問題發(fā)現(xiàn)階段捐友，例如多服務(wù)串聯(lián)調(diào)用淫半，如果某個(gè)階段，出現(xiàn)耗時(shí)比較大的情況匣砖，可以通過應(yīng)用監(jiān)控科吭，降低問題排查難度昏滴。在告警通知階段，可以通過統(tǒng)一告警對(duì)異常統(tǒng)一收斂对人，然后根據(jù)告警策略谣殊，通知給運(yùn)維或者開發(fā)。問題定位時(shí)牺弄，可以利用故障定位服務(wù)找到最可能出現(xiàn)問題的服務(wù)姻几。解決問題時(shí)，類似磁盤打滿這種比較常見的故障猖闪，可以通過回調(diào)作業(yè)快速排障鲜棠。復(fù)盤改進(jìn)階段，故障管理平臺(tái)可以統(tǒng)一管理培慌，全流程復(fù)盤豁陆，使解決過程可追溯。預(yù)防演練階段吵护，在服務(wù)上線前盒音，可以對(duì)服務(wù)進(jìn)行壓力測試，根據(jù)指標(biāo)設(shè)置容量馅而。

四祥诽、行業(yè)變革下的監(jiān)控探索實(shí)踐及未來規(guī)劃

4.1 云原生：Prometheus監(jiān)控

當(dāng)前行業(yè)正迎來快速變革，我們在云原生瓮恭、AIOps雄坪、可觀性等方向均進(jìn)行了探索實(shí)踐。未來我們也想緊跟行業(yè)熱點(diǎn)屯蹦，繼續(xù)深挖產(chǎn)品價(jià)值维哈。隨著Kubernetes成為容器編排領(lǐng)域的事實(shí)標(biāo)準(zhǔn)，Prometheus因?yàn)閷?duì)容器監(jiān)控良好的適配登澜，使其成為云原生時(shí)代阔挠，容器監(jiān)控的事實(shí)標(biāo)準(zhǔn)。下面我們介紹一下整體架構(gòu)脑蠕，我們將容器監(jiān)控分為容器集群監(jiān)控和容器業(yè)務(wù)監(jiān)控购撼，首先對(duì)于容器集群監(jiān)控，每個(gè)生產(chǎn)集群都有獨(dú)立的監(jiān)控節(jié)點(diǎn)谴仙，用于部署監(jiān)控組件迂求，Prometheus按照采集目標(biāo)服務(wù)劃分為多組，數(shù)據(jù)存儲(chǔ)采用VictoriaMetrics晃跺，我們簡稱VM揩局，同一機(jī)房的Prometheus集群，均將監(jiān)控?cái)?shù)據(jù)Remote-Write到VM中哼审，VM配置為多副本存儲(chǔ)谐腰。通過撥測監(jiān)控，實(shí)現(xiàn)對(duì)Prometheus自監(jiān)控涩盾，保障Prometheus異常時(shí)能收到告警信息十气。容器業(yè)務(wù)監(jiān)控方面，Agent部署在宿主機(jī)春霍，并從Cadvisor拉取指標(biāo)數(shù)據(jù)砸西，上報(bào)到Bees-Bus，Bees-Bus將數(shù)據(jù)雙寫到兩個(gè)Kafka集群址儒，統(tǒng)一檢測服務(wù)異步檢測指標(biāo)數(shù)據(jù)芹枷，業(yè)務(wù)監(jiān)控指標(biāo)數(shù)據(jù)采用VM做遠(yuǎn)端存儲(chǔ)，Dashboard通過Promql語句查詢展示指標(biāo)數(shù)據(jù)莲趣。

4.2 AIOps：故障定位

當(dāng)前業(yè)界對(duì)AIOps的探索鸳慈，大部分在一些細(xì)分場景，我們也在故障定位這個(gè)方向進(jìn)行了探索喧伞。分析過程中首先通過CMDB節(jié)點(diǎn)樹走芋，選定需要分析的項(xiàng)目節(jié)點(diǎn)，然后選擇需要分析的時(shí)段潘鲫，就可以按組件和服務(wù)下鉆分析翁逞，通過計(jì)算得出每個(gè)下游服務(wù)的波動(dòng)方差，再利用K-Means聚類溉仑，過濾掉波動(dòng)較小的聚類挖函，找到可能出現(xiàn)異常的服務(wù)或組件。分析過程會(huì)形成一張?jiān)蜴溌穲D浊竟，方便用戶快速找到異常服務(wù)怨喘，分析結(jié)果會(huì)推薦給用戶，告知用戶最可能出現(xiàn)異常的原因逐沙。詳情查看功能可以看到被調(diào)用的下游服務(wù)哲思、接口名、耗時(shí)等信息吩案。

4.3 可觀測性：可用性大盤

由于CNCF在云原生的定義中提到了Observerbility棚赔，所以近兩年可觀性，成了技術(shù)圈很火熱的關(guān)鍵詞徘郭。當(dāng)前業(yè)界基于Metrics靠益、Logs、Traces對(duì)可觀測性形成了一定共識(shí)残揉。谷歌也給出了可觀測的核心價(jià)值就是快速排障胧后。我們認(rèn)為指標(biāo)、日志抱环、追蹤是實(shí)現(xiàn)可觀測性的基礎(chǔ)壳快，在此基礎(chǔ)上將三者有機(jī)融合纸巷，針對(duì)不同的場景將他們串聯(lián)在一起，實(shí)現(xiàn)方便快捷的查找故障根因眶痰，綜上我們建設(shè)了可用性大盤瘤旨，它能查看服務(wù)的健康狀況，通過下鉆竖伯，可以看到上下游服務(wù)依賴關(guān)系存哲、域名健康狀況、后端服務(wù)分布等七婴。通過串聯(lián)跳轉(zhuǎn)等方式可以看到對(duì)應(yīng)服務(wù)的日志和指標(biāo)信息祟偷。

4.4 場景串聯(lián)

未來我們希望在場景串聯(lián)、可觀測性打厘、服務(wù)能力化進(jìn)一步探索修肠，深挖產(chǎn)品價(jià)值。場景串聯(lián)上：

首先我們希望告警能夠與故障定位平臺(tái)串聯(lián)婚惫，幫助用戶快速找到故障根因氛赐，縮短排查時(shí)間；
告警記錄能夠一鍵轉(zhuǎn)為事件先舷，減少數(shù)據(jù)鏈路中人為操作的環(huán)節(jié)艰管，保障數(shù)據(jù)的真實(shí)性；
我們希望能與CMDB等平臺(tái)打通蒋川，將數(shù)據(jù)價(jià)值最大化牲芋。

4.5 統(tǒng)一可觀測

現(xiàn)在，vivo監(jiān)控服務(wù)體系的可觀測產(chǎn)品沒有完全融合在一起捺球，所以后續(xù)我們希望構(gòu)建統(tǒng)一可觀測平臺(tái)：

在一元場景中缸浦，可以單獨(dú)查看指標(biāo)、日志氮兵、追蹤信息裂逐；
在轉(zhuǎn)化場景中，能夠通過日志獲得指標(biāo)數(shù)據(jù)泣栈，對(duì)日志的聚合和轉(zhuǎn)化得到追蹤卜高，利用調(diào)用鏈的分析，獲得調(diào)用范圍內(nèi)的指標(biāo)南片。通過指標(biāo)掺涛、日志、追蹤多個(gè)維度找到故障的源頭疼进；
在二元場景薪缆，我們希望日志和指標(biāo)、日志和追蹤伞广、追蹤和指標(biāo)能夠相互結(jié)合拣帽，聚合分析疼电。

4.6 能力服務(wù)化

目前監(jiān)控有很多服務(wù)，在公司構(gòu)建混合云平臺(tái)的大背景下减拭，監(jiān)控系統(tǒng)的服務(wù)應(yīng)該具備以能力化的方式提供出去澜沟。未來我們希望指標(biāo)、圖表峡谊、告警等，以API或者獨(dú)立服務(wù)的方式提供能力刊苍，例如在CICD服務(wù)部署過程中既们，就可以通過監(jiān)控提供的圖表能力，看到服務(wù)部署時(shí)關(guān)鍵指標(biāo)變化情況正什，而不需要跳轉(zhuǎn)到監(jiān)控服務(wù)查看指標(biāo)信息啥纸。

最后，我們希望監(jiān)控能更好的保障業(yè)務(wù)可用性婴氮，在此基礎(chǔ)上斯棒，我們也希望通過監(jiān)控系統(tǒng)提升業(yè)務(wù)服務(wù)質(zhì)量。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末主经，一起剝皮案震驚了整個(gè)濱河市荣暮，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌罩驻，老刑警劉巖穗酥，帶你破解...
沈念sama閱讀 217,509評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異惠遏，居然都是意外死亡砾跃，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門节吮，熙熙樓的掌柜王于貴愁眉苦臉地迎上來抽高，“玉大人，你說我怎么就攤上這事透绩∏搪睿” “怎么了？”我有些...
開封第一講書人閱讀 163,875評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵渺贤，是天一觀的道長雏胃。經(jīng)常有香客問我，道長志鞍，這世上最難降的妖魔是什么瞭亮？我笑而不...
開封第一講書人閱讀 58,441評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮固棚，結(jié)果婚禮上统翩，老公的妹妹穿的比我還像新娘仙蚜。我一直安慰自己，他們只是感情好厂汗，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布委粉。她就那樣靜靜地躺著，像睡著了一般娶桦。火紅的嫁衣襯著肌膚如雪贾节。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,365評(píng)論 1贊 302
城市分裂傳說
那天衷畦，我揣著相機(jī)與錄音栗涂，去河邊找鬼。笑死祈争，一個(gè)胖子當(dāng)著我的面吹牛斤程，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播菩混，決...
沈念sama閱讀 40,190評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼忿墅，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了沮峡？” 一聲冷哼從身側(cè)響起疚脐，我...
開封第一講書人閱讀 39,062評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎邢疙，沒想到半個(gè)月后亮曹，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,500評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡秘症，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年照卦，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乡摹。...
茶點(diǎn)故事閱讀 39,834評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡役耕，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出聪廉，到底是詐尸還是另有隱情瞬痘，我是刑警寧澤，帶...
沈念sama閱讀 35,559評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布板熊，位于F島的核電站框全，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏干签。R本人自食惡果不足惜津辩，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧喘沿，春花似錦闸度、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評(píng)論 0贊 22
一樁弒父案莺禁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至窄赋，卻和暖如春哟冬，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背忆绰。一陣腳步聲響...
開封第一講書人閱讀 32,912評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工柒傻，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人较木。一個(gè)月前我還...
沈念sama閱讀 47,958評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像青柄，于是被迫代替她去往敵國和親伐债。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評(píng)論 2贊 354