vivo 服務(wù)端監(jiān)控體系建設(shè)實(shí)踐

作者:vivo 互聯(lián)網(wǎng)服務(wù)器團(tuán)隊(duì)- Chen Ningning

本文根據(jù)“2022 vivo開發(fā)者大會(huì)"現(xiàn)場演講內(nèi)容整理而成。

經(jīng)過幾年的平臺(tái)建設(shè)罗侯,vivo監(jiān)控平臺(tái)產(chǎn)品矩陣日趨完善器腋,在vivo終端龐大的用戶群體下,承載業(yè)務(wù)運(yùn)行的服務(wù)數(shù)量眾多钩杰,監(jiān)控服務(wù)體系是業(yè)務(wù)可用性保障的重要一環(huán)纫塌,監(jiān)控產(chǎn)品全場景覆蓋生產(chǎn)環(huán)境各個(gè)環(huán)節(jié)。從事前發(fā)現(xiàn)讲弄,事中告警措左、定位、恢復(fù)垂睬,事后復(fù)盤總結(jié)媳荒,監(jiān)控服務(wù)平臺(tái)都提供了豐富的工具包抗悍。從以前的水平拆分,按場景建設(shè)钳枕,到后來的垂直劃分缴渊,整合統(tǒng)一,降低平臺(tái)割裂感鱼炒。同時(shí)從可觀測性衔沼、AIOps、云原生等方向昔瞧,監(jiān)控平臺(tái)也進(jìn)行了建設(shè)實(shí)踐指蚁。未來vivo監(jiān)控平臺(tái)將會(huì)向著全場景、一站式自晰、全鏈路凝化、智能化方向不斷探索前行。

監(jiān)控服務(wù)平臺(tái)是自研的酬荞、覆蓋全場景的可用性保障系統(tǒng)搓劫。經(jīng)過多年深耕,vivo監(jiān)控團(tuán)隊(duì)已經(jīng)成體系構(gòu)筑起一整套穩(wěn)定性保障系統(tǒng)混巧,隨著云原生可觀測技術(shù)變革不斷深化枪向,監(jiān)控團(tuán)隊(duì)如何掌舵前行?下面就平臺(tái)的建設(shè)歷程咧党、思考秘蛔、探索,做一下簡單介紹傍衡。

一深员、監(jiān)控體系建設(shè)之道

1.1 監(jiān)控建設(shè)歷程

回顧監(jiān)控建設(shè)歷程,最初采用Zabbix聪舒,與告警中心的組合實(shí)現(xiàn)簡易監(jiān)控辨液。隨著業(yè)務(wù)的發(fā)展在復(fù)雜監(jiān)控場景和數(shù)據(jù)量不斷增長的情況下,這種簡易的組合就顯的捉襟見肘箱残。所以從2018年開始我們開啟了自研之路滔迈,最開始我們建設(shè)了應(yīng)用監(jiān)控、日志監(jiān)控被辑、撥測監(jiān)控解決了很大一部分監(jiān)控場景沒有覆蓋的問題燎悍;2019年我們建設(shè)了基礎(chǔ)監(jiān)控、自定義監(jiān)控等盼理,完成了主要監(jiān)控場景的基本覆蓋谈山;2020年我們在完善前期監(jiān)控產(chǎn)品的同時(shí),進(jìn)一步對(duì)周邊產(chǎn)品進(jìn)行了建設(shè)宏怔;隨著AI技術(shù)的不斷成熟奏路,我們從2021年開始也進(jìn)行了轉(zhuǎn)型升級(jí)畴椰,先后建設(shè)了故障定位平臺(tái)、統(tǒng)一告警平臺(tái)有了這些平臺(tái)后我們發(fā)現(xiàn)鸽粉,要想進(jìn)一步提升平臺(tái)價(jià)值斜脂,數(shù)據(jù)和平臺(tái)的統(tǒng)一至關(guān)重要;所以從2022年開始建設(shè)了統(tǒng)一監(jiān)控平臺(tái)触机,也就是將基礎(chǔ)監(jiān)控帚戳、應(yīng)用監(jiān)控和自定義監(jiān)控進(jìn)行了統(tǒng)一,統(tǒng)一監(jiān)控包含了統(tǒng)一配置服務(wù)和統(tǒng)一檢測服務(wù)儡首。從監(jiān)控的建設(shè)歷程來看片任,我們一路覆蓋了IaaS、PaaS蔬胯、DaaS对供、CaaS等平臺(tái)。我們的職能也從DevOps向AIOps邁進(jìn)氛濒。

1.2 監(jiān)控能力矩陣

講了監(jiān)控的發(fā)展歷程犁钟,那么這些監(jiān)控產(chǎn)品在我們的生產(chǎn)環(huán)境中是如何分布的呢?要想支撐數(shù)以萬計(jì)的業(yè)務(wù)運(yùn)行泼橘,需要龐雜的系統(tǒng)支撐,服務(wù)器迈勋、網(wǎng)絡(luò)環(huán)境炬灭、基礎(chǔ)組件等,都需要監(jiān)控系統(tǒng)保障它的穩(wěn)定性靡菇。我們將監(jiān)控的對(duì)象分為五層重归,在基礎(chǔ)設(shè)施層,包含了網(wǎng)絡(luò)設(shè)備厦凤、服務(wù)器鼻吮、存儲(chǔ)硬件等,這一層我們通過VGW監(jiān)控對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行監(jiān)控较鼓,VGW是Vivo Gateway的縮寫椎木,類似于LVS;通過自定義監(jiān)控博烂,對(duì)機(jī)房進(jìn)行監(jiān)控香椎;系統(tǒng)服務(wù)器層,我們定義的監(jiān)控對(duì)象是服務(wù)運(yùn)行依賴的環(huán)境禽篱,通過主機(jī)監(jiān)控對(duì)物理機(jī)畜伐、虛擬機(jī)等監(jiān)控,當(dāng)前容器在云原生技術(shù)體系中躺率,已然成為微服務(wù)運(yùn)行的最佳載體玛界,所以對(duì)容器的監(jiān)控必不可少万矾;系統(tǒng)服務(wù)層,包含了各種數(shù)據(jù)庫產(chǎn)品慎框、大數(shù)據(jù)組件等良狈,在這一層主要通過自定義監(jiān)控檢測、告警鲤脏;業(yè)務(wù)應(yīng)用層们颜,主要有應(yīng)用服務(wù),我們通過應(yīng)用監(jiān)控對(duì)業(yè)務(wù)鏈路信息進(jìn)行監(jiān)控猎醇;客戶體驗(yàn)層窥突,我們定義了端上的訪問質(zhì)量,由宙斯平臺(tái)實(shí)現(xiàn)監(jiān)控硫嘶。前面我們講了監(jiān)控能力矩陣阻问,下面我們具體介紹一下監(jiān)控的范圍和整個(gè)平臺(tái)的能力。

1.3 監(jiān)控對(duì)象范圍

監(jiān)控對(duì)象涉及網(wǎng)絡(luò)沦疾、主機(jī)称近、基礎(chǔ)服務(wù)等。面對(duì)各地機(jī)房我們做到了監(jiān)控全覆蓋哮塞,為滿足各類環(huán)境部署訴求刨秆,我們可以做到針對(duì)不同環(huán)境的監(jiān)控。我們支持多種采集方式忆畅,SDK和API采集主要應(yīng)用在自定義監(jiān)控場景衡未,Agent主要采集主機(jī)類指標(biāo),采集上來的時(shí)序數(shù)據(jù)經(jīng)過預(yù)聚合家凯、統(tǒng)一的數(shù)據(jù)清洗缓醋,然后存儲(chǔ)在TSDB數(shù)據(jù)庫。針對(duì)海量數(shù)據(jù)存儲(chǔ)我們采用了數(shù)據(jù)降精绊诲,寬表多維多指標(biāo)等方案送粱。我們常用的檢測算法有恒值檢測、突變檢測掂之、同比檢測等突那,同時(shí)還支持了無數(shù)據(jù)檢測梁棠、多指標(biāo)組合檢測顺呕,檢測出現(xiàn)的異常我們會(huì)形成一個(gè)問題端礼,問題在經(jīng)過一系列的收斂后發(fā)出告警,我們有多種告警通道冯乘,支持告警合并洽胶、認(rèn)領(lǐng)、升級(jí)等,需要展示的指標(biāo)數(shù)據(jù)我們提供了豐富的自定義指標(biāo)看板姊氓,對(duì)使用頻率高 固化場景丐怯,我們提供了模板化配置方案。有了完備的監(jiān)控體系翔横,那么系統(tǒng)的關(guān)鍵指標(biāo)和監(jiān)控對(duì)象體量如何读跷?

1.4 監(jiān)控系統(tǒng)體量

當(dāng)前監(jiān)控服務(wù)體系保障著x萬+的主機(jī)實(shí)例,x萬+的DB實(shí)例禾唁,每天處理x千億條各類指標(biāo)和日志效览,對(duì)x千+的域名做到秒級(jí)監(jiān)控,對(duì)x萬+的容器實(shí)例監(jiān)控荡短,每天從統(tǒng)一告警發(fā)出的各類告警達(dá)到x十萬+ 丐枉,對(duì)主機(jī)實(shí)例的監(jiān)控覆蓋率達(dá)到x %,監(jiān)控平臺(tái)通過不斷的探索實(shí)踐掘托,實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)計(jì)算存儲(chǔ)瘦锹,當(dāng)前對(duì)核心業(yè)務(wù)的告警延遲在x秒以內(nèi),告警召回率大于x %闪盔。

1.5 監(jiān)控系統(tǒng)面臨挑戰(zhàn)

雖然現(xiàn)階段取得了一些成果弯院,但是目前仍然面臨很多挑戰(zhàn),主要分為三大類:

  • 部署環(huán)境復(fù)雜

對(duì)數(shù)以萬計(jì)的主機(jī)和容器泪掀,實(shí)時(shí)采集 計(jì)算是一項(xiàng)困難的事情听绳;面對(duì)各地機(jī)房監(jiān)控,部署過程中依賴項(xiàng)多异赫,維護(hù)工作復(fù)雜辫红;對(duì)海量數(shù)據(jù)計(jì)算存儲(chǔ),保障監(jiān)控服務(wù)穩(wěn)定性祝辣、可用性難度大。

  • 平臺(tái)系統(tǒng)繁多

當(dāng)前系統(tǒng)還存在割裂切油,用戶體驗(yàn)不強(qiáng)蝙斜;數(shù)據(jù)割裂,沒有從底層融合在一起澎胡,對(duì)于數(shù)據(jù)組合使用形成挑戰(zhàn)孕荠。

  • 新技術(shù)挑戰(zhàn)

首先基于容器的監(jiān)控方案,對(duì)傳統(tǒng)監(jiān)控方案形成挑戰(zhàn)攻谁,當(dāng)前對(duì)Prometheus指標(biāo)存儲(chǔ)處在探索階段稚伍,暫時(shí)沒有標(biāo)準(zhǔn)的解決方案,但是面對(duì)快速增長的數(shù)據(jù)量戚宦,新組件的探索試錯(cuò)成本相對(duì)較高个曙。

二、監(jiān)控服務(wù)體系架構(gòu)

2.1 產(chǎn)品架構(gòu)

產(chǎn)品架構(gòu)的能力服務(wù)層受楼,我們定義了采集能力垦搬、檢測能力呼寸、告警能力等;功能層我們對(duì)這些能力做了具體實(shí)現(xiàn)猴贰,我們將監(jiān)控分為主機(jī)对雪、容器、DB等9類場景米绕,展示層主要由Dashboard提供靈活的圖表配置能力瑟捣,日志中心負(fù)責(zé)日志查詢,移動(dòng)端可以對(duì)告警信息進(jìn)行認(rèn)領(lǐng)栅干、屏蔽迈套。

2.2 技術(shù)架構(gòu)

技術(shù)架構(gòu)層分為采集、計(jì)算非驮、存儲(chǔ)交汤、可視化幾大塊,首先在采集層我們通過各種采集方式進(jìn)行指標(biāo)采集劫笙;上報(bào)的數(shù)據(jù)主要通過Bees-Bus進(jìn)行傳輸芙扎,Bees-Bus是一款公司自研的分布式、高可用的數(shù)據(jù)收集系統(tǒng)填大,指標(biāo)經(jīng)過Bees-Bus之后寫入Kafka戒洼,隨著Pulsar的受關(guān)注度與使用量的顯著增加,我們也在這方面進(jìn)行了一定的探索允华;計(jì)算層我們經(jīng)歷了Spark圈浇、Flink、KafkaStream幾個(gè)階段的探索靴寂,基本實(shí)現(xiàn)了計(jì)算層技術(shù)棧收歸到KafkaStream磷蜀;數(shù)據(jù)主要存儲(chǔ)在Druid,當(dāng)前有190+節(jié)點(diǎn)的Druid集群百炬。Opentsdb和Hive早期應(yīng)用在主機(jī)監(jiān)控場景褐隆,隨著業(yè)務(wù)發(fā)展其性能已經(jīng)不能勝任當(dāng)前的寫入和查詢需求,所以逐步被舍棄剖踊。

當(dāng)前我們選用了VictoriaMetrics作為Prometheus的遠(yuǎn)端存儲(chǔ)庶弃,日志信息存儲(chǔ)在ES中,目前我們有250+的ES節(jié)點(diǎn)德澈。服務(wù)層中各類監(jiān)控場景的元數(shù)據(jù)歇攻,都由統(tǒng)一元數(shù)據(jù)服務(wù)提供;各類檢測規(guī)則梆造、告警規(guī)則都由統(tǒng)一配置服務(wù)維護(hù)缴守,統(tǒng)一告警服務(wù)則負(fù)責(zé)告警的收斂、合并、發(fā)送等斧散。Grafana則主要用作自監(jiān)控告警供常。

2.3 交互流程

在監(jiān)控架構(gòu)的基礎(chǔ)上,我們介紹一下整體交互流程鸡捐,采集規(guī)則由統(tǒng)一元數(shù)據(jù)服務(wù)管理栈暇,并主動(dòng)下發(fā)到VCS-Master,VCS-Master主要用來任務(wù)下發(fā)箍镜,Agent執(zhí)行結(jié)果數(shù)據(jù)接收源祈,任務(wù)查詢和配置管理等,Agent會(huì)定期從VCS-Master拉取緩存的采集規(guī)則色迂,指標(biāo)經(jīng)過Bees-Bus雙寫到Kafka香缺,由ETL程序?qū)χ笜?biāo)數(shù)據(jù)消費(fèi),然后做清洗和計(jì)算歇僧,最后統(tǒng)一寫入到存儲(chǔ)服務(wù)中图张,統(tǒng)一配置服務(wù)下發(fā)檢測規(guī)則到異常檢測服務(wù),檢測出的異常信息推送到Kafka诈悍,由告警代理服務(wù)對(duì)異常信息進(jìn)行富化祸轮,處理好的數(shù)據(jù)推到Kafka,然后由統(tǒng)一告警服務(wù)消費(fèi)處理侥钳。在存儲(chǔ)服務(wù)之上适袜,我們做了一層查詢網(wǎng)關(guān),所有的查詢會(huì)經(jīng)過網(wǎng)關(guān)代理舷夺。

三苦酱、可用性體系構(gòu)建與保障

3.1 可用性體系構(gòu)建

前面說了監(jiān)控服務(wù)體系整體架構(gòu),那么監(jiān)控產(chǎn)品如何服務(wù)于業(yè)務(wù)可用性给猾。我們將業(yè)務(wù)穩(wěn)定性在時(shí)間軸上進(jìn)行分割疫萤,不同的時(shí)段有不同的系統(tǒng)保障業(yè)務(wù)可用性,當(dāng)前我們主要關(guān)注MTTD和MTTR敢伸,告警延遲越小發(fā)現(xiàn)故障的速度也就越快给僵,系統(tǒng)維修時(shí)間越短說明系統(tǒng)恢復(fù)速度越快,我們將MTTR指標(biāo)拆解細(xì)化然后各個(gè)擊破详拙,最終達(dá)成可用性保障要求。vivo監(jiān)控服務(wù)體系提供了蔓同,涵蓋在穩(wěn)定性建設(shè)中需要的故障預(yù)防饶辙、故障發(fā)現(xiàn)等全場景工具包,監(jiān)控平臺(tái)提供了產(chǎn)品工具斑粱,那么與運(yùn)維人員弃揽,研發(fā)人員是怎樣協(xié)作配合的?

3.2 系統(tǒng)可用性保障

當(dāng)監(jiān)控對(duì)象有問題時(shí),監(jiān)控系統(tǒng)就會(huì)發(fā)送告警給運(yùn)維人員或業(yè)務(wù)開發(fā)矿微,他們通過查看相關(guān)指標(biāo)修復(fù)問題痕慢。使用過程中運(yùn)維人員的訴求和疑問,由監(jiān)控平臺(tái)產(chǎn)品和開發(fā)協(xié)同配合解決涌矢,我們通過運(yùn)營指標(biāo)掖举,定期梳理出不合理的告警,將對(duì)應(yīng)的檢測規(guī)則同步給運(yùn)維同學(xué)娜庇,然后制定調(diào)整計(jì)劃塔次,后期我們計(jì)劃結(jié)合智能檢測,做到零配置就能檢測出異常指標(biāo)名秀。通過監(jiān)控開發(fā)励负、運(yùn)維人員和業(yè)務(wù)開發(fā)一起協(xié)同配合,保障業(yè)務(wù)的可用性匕得。

3.3 監(jiān)控系統(tǒng)可用性

除了保障業(yè)務(wù)可用性外继榆,監(jiān)控系統(tǒng)自身的可用性保障也是一個(gè)重要的課題。為了保障Agent存活汁掠,我們構(gòu)建了多種維活機(jī)制略吨,保障端上指標(biāo)采集正常。數(shù)據(jù)經(jīng)過Bees-Bus之后调塌,會(huì)雙寫到兩個(gè)機(jī)房晋南,當(dāng)有一個(gè)機(jī)房出現(xiàn)故障,會(huì)快速切到另一個(gè)機(jī)房羔砾,保障核心業(yè)務(wù)不受損负间。數(shù)據(jù)鏈路的每一層都有自監(jiān)控。監(jiān)控平臺(tái)通過Grafana監(jiān)控告警姜凄。

3.4 復(fù)雜場景下依托監(jiān)控解決問題手段 監(jiān)控能力矩陣

隨著公司業(yè)務(wù)發(fā)展政溃,業(yè)務(wù)模型、部署架構(gòu)越來越復(fù)雜态秧,讓故障定位很困難董虱,定位問題成本高。而監(jiān)控系統(tǒng)在面對(duì)復(fù)雜申鱼、異構(gòu)愤诱、調(diào)用關(guān)系冗長的系統(tǒng)時(shí)就起到了重要作用。在問題發(fā)現(xiàn)階段捐友,例如多服務(wù)串聯(lián)調(diào)用淫半,如果某個(gè)階段,出現(xiàn)耗時(shí)比較大的情況匣砖,可以通過應(yīng)用監(jiān)控科吭,降低問題排查難度昏滴。在告警通知階段,可以通過統(tǒng)一告警對(duì)異常統(tǒng)一收斂对人,然后根據(jù)告警策略谣殊,通知給運(yùn)維或者開發(fā)。問題定位時(shí)牺弄,可以利用故障定位服務(wù)找到最可能出現(xiàn)問題的服務(wù)姻几。解決問題時(shí),類似磁盤打滿這種比較常見的故障猖闪,可以通過回調(diào)作業(yè)快速排障鲜棠。復(fù)盤改進(jìn)階段,故障管理平臺(tái)可以統(tǒng)一管理培慌,全流程復(fù)盤豁陆,使解決過程可追溯。預(yù)防演練階段吵护,在服務(wù)上線前盒音,可以對(duì)服務(wù)進(jìn)行壓力測試,根據(jù)指標(biāo)設(shè)置容量馅而。

四祥诽、行業(yè)變革下的監(jiān)控探索實(shí)踐及未來規(guī)劃

4.1 云原生:Prometheus監(jiān)控

當(dāng)前行業(yè)正迎來快速變革,我們在云原生瓮恭、AIOps雄坪、可觀性等方向均進(jìn)行了探索實(shí)踐。未來我們也想緊跟行業(yè)熱點(diǎn)屯蹦,繼續(xù)深挖產(chǎn)品價(jià)值维哈。隨著Kubernetes成為容器編排領(lǐng)域的事實(shí)標(biāo)準(zhǔn),Prometheus因?yàn)閷?duì)容器監(jiān)控良好的適配登澜,使其成為云原生時(shí)代阔挠,容器監(jiān)控的事實(shí)標(biāo)準(zhǔn)。下面我們介紹一下整體架構(gòu)脑蠕,我們將容器監(jiān)控分為容器集群監(jiān)控和容器業(yè)務(wù)監(jiān)控购撼,首先對(duì)于容器集群監(jiān)控,每個(gè)生產(chǎn)集群都有獨(dú)立的監(jiān)控節(jié)點(diǎn)谴仙,用于部署監(jiān)控組件迂求,Prometheus按照采集目標(biāo)服務(wù)劃分為多組,數(shù)據(jù)存儲(chǔ)采用VictoriaMetrics晃跺,我們簡稱VM揩局,同一機(jī)房的Prometheus集群,均將監(jiān)控?cái)?shù)據(jù)Remote-Write到VM中哼审,VM配置為多副本存儲(chǔ)谐腰。通過撥測監(jiān)控,實(shí)現(xiàn)對(duì)Prometheus自監(jiān)控涩盾,保障Prometheus異常時(shí)能收到告警信息十气。容器業(yè)務(wù)監(jiān)控方面,Agent部署在宿主機(jī)春霍,并從Cadvisor拉取指標(biāo)數(shù)據(jù)砸西,上報(bào)到Bees-Bus,Bees-Bus將數(shù)據(jù)雙寫到兩個(gè)Kafka集群址儒,統(tǒng)一檢測服務(wù)異步檢測指標(biāo)數(shù)據(jù)芹枷,業(yè)務(wù)監(jiān)控指標(biāo)數(shù)據(jù)采用VM做遠(yuǎn)端存儲(chǔ),Dashboard通過Promql語句查詢展示指標(biāo)數(shù)據(jù)莲趣。

4.2 AIOps:故障定位

當(dāng)前業(yè)界對(duì)AIOps的探索鸳慈,大部分在一些細(xì)分場景,我們也在故障定位這個(gè)方向進(jìn)行了探索喧伞。分析過程中首先通過CMDB節(jié)點(diǎn)樹走芋,選定需要分析的項(xiàng)目節(jié)點(diǎn),然后選擇需要分析的時(shí)段潘鲫,就可以按組件和服務(wù)下鉆分析翁逞,通過計(jì)算得出每個(gè)下游服務(wù)的波動(dòng)方差,再利用K-Means聚類溉仑,過濾掉波動(dòng)較小的聚類挖函,找到可能出現(xiàn)異常的服務(wù)或組件。分析過程會(huì)形成一張?jiān)蜴溌穲D浊竟,方便用戶快速找到異常服務(wù)怨喘,分析結(jié)果會(huì)推薦給用戶,告知用戶最可能出現(xiàn)異常的原因逐沙。詳情查看功能可以看到被調(diào)用的下游服務(wù)哲思、接口名、耗時(shí)等信息吩案。

4.3 可觀測性:可用性大盤

由于CNCF在云原生的定義中提到了Observerbility棚赔,所以近兩年可觀性,成了技術(shù)圈很火熱的關(guān)鍵詞徘郭。當(dāng)前業(yè)界基于Metrics靠益、Logs、Traces對(duì)可觀測性形成了一定共識(shí)残揉。谷歌也給出了可觀測的核心價(jià)值就是快速排障胧后。我們認(rèn)為指標(biāo)、日志抱环、追蹤是實(shí)現(xiàn)可觀測性的基礎(chǔ)壳快,在此基礎(chǔ)上將三者有機(jī)融合纸巷,針對(duì)不同的場景將他們串聯(lián)在一起,實(shí)現(xiàn)方便快捷的查找故障根因眶痰,綜上我們建設(shè)了可用性大盤瘤旨,它能查看服務(wù)的健康狀況,通過下鉆竖伯,可以看到上下游服務(wù)依賴關(guān)系存哲、域名健康狀況、后端服務(wù)分布等七婴。通過串聯(lián)跳轉(zhuǎn)等方式可以看到對(duì)應(yīng)服務(wù)的日志和指標(biāo)信息祟偷。

4.4 場景串聯(lián)

未來我們希望在場景串聯(lián)、可觀測性打厘、服務(wù)能力化進(jìn)一步探索修肠,深挖產(chǎn)品價(jià)值。場景串聯(lián)上:

  • 首先我們希望告警能夠與故障定位平臺(tái)串聯(lián)婚惫,幫助用戶快速找到故障根因氛赐,縮短排查時(shí)間 ;

  • 告警記錄能夠一鍵轉(zhuǎn)為事件先舷,減少數(shù)據(jù)鏈路中人為操作的環(huán)節(jié)艰管,保障數(shù)據(jù)的真實(shí)性;

  • 我們希望能與CMDB等平臺(tái)打通蒋川,將數(shù)據(jù)價(jià)值最大化牲芋。

4.5 統(tǒng)一可觀測

現(xiàn)在,vivo監(jiān)控服務(wù)體系的可觀測產(chǎn)品沒有完全融合在一起捺球,所以后續(xù)我們希望構(gòu)建統(tǒng)一可觀測平臺(tái):

  • 在一元場景中缸浦,可以單獨(dú)查看指標(biāo)、日志氮兵、追蹤信息裂逐;

  • 在轉(zhuǎn)化場景中,能夠通過日志獲得指標(biāo)數(shù)據(jù)泣栈,對(duì)日志的聚合和轉(zhuǎn)化得到追蹤卜高,利用調(diào)用鏈的分析,獲得調(diào)用范圍內(nèi)的指標(biāo)南片。通過指標(biāo)掺涛、日志、追蹤多個(gè)維度找到故障的源頭疼进;

  • 在二元場景薪缆,我們希望日志和指標(biāo)、日志和追蹤伞广、追蹤和指標(biāo)能夠相互結(jié)合拣帽,聚合分析疼电。

4.6 能力服務(wù)化

目前監(jiān)控有很多服務(wù),在公司構(gòu)建混合云平臺(tái)的大背景下减拭,監(jiān)控系統(tǒng)的服務(wù)應(yīng)該具備以能力化的方式提供出去澜沟。未來我們希望指標(biāo)、圖表峡谊、告警等,以API或者獨(dú)立服務(wù)的方式提供能力刊苍,例如在CICD服務(wù)部署過程中既们,就可以通過監(jiān)控提供的圖表能力,看到服務(wù)部署時(shí)關(guān)鍵指標(biāo)變化情況正什,而不需要跳轉(zhuǎn)到監(jiān)控服務(wù)查看指標(biāo)信息啥纸。

最后,我們希望監(jiān)控能更好的保障業(yè)務(wù)可用性婴氮,在此基礎(chǔ)上斯棒,我們也希望通過監(jiān)控系統(tǒng)提升業(yè)務(wù)服務(wù)質(zhì)量。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末主经,一起剝皮案震驚了整個(gè)濱河市荣暮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌罩驻,老刑警劉巖穗酥,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異惠遏,居然都是意外死亡砾跃,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門节吮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來抽高,“玉大人,你說我怎么就攤上這事透绩∏搪睿” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵渺贤,是天一觀的道長雏胃。 經(jīng)常有香客問我,道長志鞍,這世上最難降的妖魔是什么瞭亮? 我笑而不...
    開封第一講書人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮固棚,結(jié)果婚禮上统翩,老公的妹妹穿的比我還像新娘仙蚜。我一直安慰自己,他們只是感情好厂汗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開白布委粉。 她就那樣靜靜地躺著,像睡著了一般娶桦。 火紅的嫁衣襯著肌膚如雪贾节。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評(píng)論 1 302
  • 那天衷畦,我揣著相機(jī)與錄音栗涂,去河邊找鬼。 笑死祈争,一個(gè)胖子當(dāng)著我的面吹牛斤程,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播菩混,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼忿墅,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了沮峡?” 一聲冷哼從身側(cè)響起疚脐,我...
    開封第一講書人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎邢疙,沒想到半個(gè)月后亮曹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡秘症,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年照卦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乡摹。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡役耕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出聪廉,到底是詐尸還是另有隱情瞬痘,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布板熊,位于F島的核電站框全,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏干签。R本人自食惡果不足惜津辩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧喘沿,春花似錦闸度、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至窄赋,卻和暖如春哟冬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背忆绰。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來泰國打工柒傻, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人较木。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像青柄,于是被迫代替她去往敵國和親伐债。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容