基礎(chǔ)設(shè)施與應(yīng)用監(jiān)控之指標(biāo)罕偎、監(jiān)控和報(bào)警簡(jiǎn)介

概述

了解基礎(chǔ)設(shè)施和系統(tǒng)的狀態(tài)對(duì)于確保服務(wù)的可靠性和穩(wěn)定性至關(guān)重要溜在。有關(guān)部署的運(yùn)行狀況和性能的信息不僅可以幫助您的團(tuán)隊(duì)對(duì)問(wèn)題做出反應(yīng)陌知,而且還可以讓他們放心地進(jìn)行更改。獲得這種洞察力的最佳方法之一是使用強(qiáng)大的監(jiān)控系統(tǒng)掖肋,該系統(tǒng)收集指標(biāo)仆葡,可視化數(shù)據(jù),并在事情出現(xiàn)故障時(shí)向操作員發(fā)出警報(bào)。

在本文中沿盅,我們將討論什么是指標(biāo)把篓,監(jiān)控和警報(bào)。我們將討論它們?yōu)楹沃匾В话闱闆r下你需要關(guān)注哪些類型的指標(biāo)以及您可能希望跟蹤的數(shù)據(jù)類型韧掩。同時(shí)我們將在此過(guò)程中介紹一些關(guān)鍵術(shù)語(yǔ)。

什么是指標(biāo)窖铡,監(jiān)控和警報(bào)疗锐?

指標(biāo),監(jiān)控和警報(bào)都是相互關(guān)聯(lián)的概念费彼,它們共同構(gòu)成了監(jiān)控系統(tǒng)的基礎(chǔ)滑臊。他們能夠提供對(duì)系統(tǒng)運(yùn)行狀況的可見(jiàn)性,幫助您了解系統(tǒng)使用或行為的趨勢(shì)箍铲,并了解您所做的更改的影響雇卷。如果指標(biāo)超出預(yù)期范圍,系統(tǒng)可以發(fā)送通知以提示操作員查看颠猴,然后可以提供幫助信息以確定可能的原因关划。

在本節(jié)中,我們將介紹這些概念以及它們?nèi)绾谓M合在一起翘瓮。

什么是指標(biāo)以及我們?yōu)槭裁词占鼈儯?/h2>

指標(biāo)表示可以在整個(gè)系統(tǒng)中觀察和收集的資源使用情況的原始數(shù)據(jù)祭玉。這些數(shù)據(jù)可能是操作系統(tǒng)提供的使用情況摘要,也可能是與系統(tǒng)組件的特定功能相關(guān)的更高級(jí)別的數(shù)據(jù)類型春畔,例如每秒提供的請(qǐng)求數(shù)或Web服務(wù)器池中的操作數(shù)脱货。某些指標(biāo)與總?cè)萘肯嚓P(guān),而其他指標(biāo)則表示為操作組件的“繁忙”速率(調(diào)用頻率)律姨。

通常振峻,最簡(jiǎn)單的指標(biāo)是您的操作系統(tǒng)已經(jīng)公開(kāi)的表示底層物理資源使用的指標(biāo)。例如磁盤(pán)空間择份,CPU負(fù)載扣孟,內(nèi)存使用等,這些數(shù)據(jù)都是可用荣赶,可立即提供價(jià)值凤价,并且無(wú)需額外工作即可轉(zhuǎn)發(fā)到監(jiān)控系統(tǒng)。許多Web服務(wù)器拔创,數(shù)據(jù)庫(kù)服務(wù)器和其他軟件也提供了自己的指標(biāo)利诺,這些指標(biāo)也可以直接傳給監(jiān)控系統(tǒng)。

而對(duì)于其他組件剩燥,尤其是您自己的應(yīng)用程序慢逾,您可能必須添加代碼或接口以公開(kāi)您關(guān)注的指標(biāo)數(shù)據(jù)。收集和公開(kāi)指標(biāo)有時(shí)被稱為向您的服務(wù)添加工具。

度量指標(biāo)非常有用侣滩,因?yàn)樗鼈兛梢陨钊肓私庀到y(tǒng)的行為和運(yùn)行狀況口注,尤其是在匯總分析時(shí)。它們代表監(jiān)控系統(tǒng)使用的原材料君珠,用于構(gòu)建環(huán)境的整體視圖寝志,自動(dòng)響應(yīng)變更,并在需要時(shí)提醒人員策添。度量指標(biāo)是用于了解歷史趨勢(shì)澈段,關(guān)聯(lián)各種因素以及衡量績(jī)效,消費(fèi)或錯(cuò)誤率變化的基本值舰攒。

什么是監(jiān)控败富?

雖然指標(biāo)代表系統(tǒng)中的數(shù)據(jù),但監(jiān)控是收集摩窃,匯總和分析這些值的過(guò)程兽叮,用以提高對(duì)組件特征和行為的了解。來(lái)自環(huán)境各個(gè)部分的數(shù)據(jù)被收集到監(jiān)視系統(tǒng)中猾愿,該系統(tǒng)負(fù)責(zé)存儲(chǔ)鹦聪,聚合,可視化以及在數(shù)值滿足特定要求時(shí)啟動(dòng)自動(dòng)響應(yīng)蒂秘。

通常泽本,指標(biāo)和監(jiān)控之間的差異反映了數(shù)據(jù)和信息之間的差異。數(shù)據(jù)由原始的姻僧,未處理的事實(shí)組成规丽,而信息則通過(guò)分析和組織數(shù)據(jù)來(lái)構(gòu)建,以構(gòu)建提供有價(jià)值的上下文撇贺。監(jiān)控采用指標(biāo)數(shù)據(jù)赌莺,對(duì)其進(jìn)行聚合,并以各種方式呈現(xiàn)松嘶,以便人們可以從各個(gè)部分的集合中洞察系統(tǒng)的運(yùn)行情況艘狭。

監(jiān)控系統(tǒng)實(shí)現(xiàn)了許多相關(guān)功能。他們的首要責(zé)任是接受和存儲(chǔ)傳入的數(shù)據(jù)和歷史數(shù)據(jù)翠订。雖然表示當(dāng)前時(shí)間點(diǎn)的值很有用巢音,但查看與過(guò)去值相關(guān)的數(shù)字幾乎總是更有幫助,可以提供有關(guān)變化和趨勢(shì)的參考尽超。這意味著監(jiān)控系統(tǒng)應(yīng)能夠在一段時(shí)間內(nèi)管理數(shù)據(jù)官撼,這可能涉及對(duì)舊數(shù)據(jù)進(jìn)行采樣或聚合。

其次橙弱,監(jiān)控系統(tǒng)通常提供數(shù)據(jù)的可視化歧寺。雖然度量指標(biāo)可以作為單獨(dú)的值來(lái)顯示和理解燥狰,但是當(dāng)信息以視覺(jué)上有意義的方式組織時(shí)棘脐,人們可以更好地識(shí)別趨勢(shì)并理解系統(tǒng)組件是如何組合在一起斜筐。監(jiān)控系統(tǒng)通常使用可配置的圖表和儀表板,可通過(guò)瀏覽顯示器來(lái)理解復(fù)雜變量或系統(tǒng)內(nèi)變化的相互作用蛀缝。

監(jiān)控系統(tǒng)提供的附加功能是組織和關(guān)聯(lián)來(lái)自各種輸入的數(shù)據(jù)顷链。為了使指標(biāo)有用,管理員需要能夠識(shí)別不同資源之間和服務(wù)器組件之間的模式屈梁。例如嗤练,如果應(yīng)用程序遇到錯(cuò)誤率高峰,則管理員應(yīng)該能夠使用監(jiān)控系統(tǒng)來(lái)發(fā)現(xiàn)該事件是否與相關(guān)資源的容量耗盡有關(guān)在讶。

最后煞抬,監(jiān)控系統(tǒng)通常用作定義和激活警報(bào)的平臺(tái),我們將在下面討論构哺。

什么是警報(bào)革答?

警報(bào)是監(jiān)控系統(tǒng)的響應(yīng)組件,它根據(jù)度量指標(biāo)值的更改來(lái)執(zhí)行操作曙强。警報(bào)由兩個(gè)部分組成:基于度量的條件或閾值残拐,以及當(dāng)值超出可接受條件時(shí)要執(zhí)行的操作。

雖然監(jiān)控系統(tǒng)對(duì)于主動(dòng)解釋和調(diào)查非常有用碟嘴,但完整監(jiān)控系統(tǒng)的主要優(yōu)點(diǎn)之一是讓管理員脫離系統(tǒng)溪食。通過(guò)警報(bào),您可以定義有效管理娜扇,同時(shí)依靠軟件的被動(dòng)監(jiān)控來(lái)監(jiān)控不斷變化的情況错沃。

雖然通知責(zé)任方是警報(bào)的最常見(jiàn)行動(dòng),但也可以根據(jù)閾值違規(guī)觸發(fā)一些程序性響應(yīng)雀瓢。例如捎废,可以使用自動(dòng)擴(kuò)展應(yīng)用程序?qū)拥哪_本來(lái)響應(yīng)指示您需要更多CPU來(lái)處理當(dāng)前負(fù)載的警報(bào)。雖然這不是嚴(yán)格的警報(bào)致燥,因?yàn)樗粫?huì)產(chǎn)生通知登疗,但通常也可以使用相同的監(jiān)控系統(tǒng)機(jī)制來(lái)啟動(dòng)這些過(guò)程。

但是嫌蚤,警報(bào)的主要目的仍然是引起人們對(duì)系統(tǒng)當(dāng)前狀態(tài)的關(guān)注辐益。自動(dòng)化響應(yīng)是確保僅在需要知識(shí)淵博的人員考慮的情況下觸發(fā)通知的重要機(jī)制。警報(bào)本身應(yīng)包含有關(guān)錯(cuò)誤的信息以及查找其他信息的位置脱吱。然后智政,響應(yīng)警報(bào)的個(gè)人可以使用監(jiān)視系統(tǒng)和相關(guān)工具(如日志文件)來(lái)調(diào)查問(wèn)題的原因并實(shí)施緩解策略。

即使是中等復(fù)雜性的基礎(chǔ)設(shè)施也需要區(qū)分警報(bào)嚴(yán)重程度箱蝠,以便可以使用適合問(wèn)題規(guī)模的方法通知負(fù)責(zé)的團(tuán)隊(duì)或個(gè)人续捂。例如垦垂,存儲(chǔ)利用率的升高可能需要工作單或電子郵件,而面向客戶端的錯(cuò)誤率或無(wú)響應(yīng)的增加可能需要向待命的工作人員發(fā)送消息牙瓢。

什么類型的信息是重要的需要跟蹤的劫拗?

您監(jiān)控的值和跟蹤的信息可能會(huì)隨著基礎(chǔ)架構(gòu)的發(fā)展而變化。由于系統(tǒng)通常以層次結(jié)構(gòu)運(yùn)行矾克,更復(fù)雜的層構(gòu)建在更原始的基礎(chǔ)架構(gòu)之上页慷,因此在規(guī)劃監(jiān)控策略時(shí)考慮這些不同級(jí)別的可用度量標(biāo)準(zhǔn)會(huì)很有用。

基于主機(jī)的指標(biāo)

原始指標(biāo)層次結(jié)構(gòu)的底部是基于主機(jī)的指標(biāo)胁附。這些將涉及評(píng)估單個(gè)機(jī)器的運(yùn)行狀況或性能酒繁,而忽視其應(yīng)用程序堆棧和服務(wù)。這些主要包括操作系統(tǒng)或硬件的使用或性能控妻,例如:

  • CPU
  • 內(nèi)存
  • 磁盤(pán)空間
  • 進(jìn)程

這些可以讓您了解可能影響單臺(tái)計(jì)算機(jī)保持穩(wěn)定或執(zhí)行工作的能力的因素州袒。

應(yīng)用程序指標(biāo)

您可能希望查看的下一類指標(biāo)是應(yīng)用程序指標(biāo)。這些指標(biāo)涉及依賴于主機(jī)級(jí)資源(如服務(wù)或應(yīng)用程序)的處理或工作單元弓候。要查看的特定類型的度量指標(biāo)取決于服務(wù)提供的內(nèi)容郎哭,它具有與之交互的其他組件一定的依賴關(guān)系。此級(jí)別的度量標(biāo)準(zhǔn)是應(yīng)用程序的運(yùn)行狀況弓叛,性能或負(fù)載的指標(biāo):

  • 錯(cuò)誤和成功率
  • 服務(wù)失敗并重新啟動(dòng)次數(shù)
  • 響應(yīng)的性能和延遲情況
  • 資源使用情況

這些指標(biāo)有助于確定應(yīng)用程序是否正常運(yùn)行并且具有高效率彰居。

網(wǎng)絡(luò)連接指標(biāo)

對(duì)于大多數(shù)類型的基礎(chǔ)設(shè)施,網(wǎng)絡(luò)連接指標(biāo)將是另一個(gè)值得探索的數(shù)據(jù)集撰筷。這些是面向外部可用性的重要指標(biāo)陈惰,對(duì)于確保跨越多臺(tái)計(jì)算機(jī)的任何系統(tǒng)毕籽,可以被其他計(jì)算機(jī)能正常訪問(wèn)服務(wù)也是必不可少的抬闯。與我們到目前為止討論過(guò)的其他指標(biāo)一樣,應(yīng)該檢查網(wǎng)絡(luò)的整體功能正確性以及通過(guò)查看以下內(nèi)容來(lái)提供必要性能的能力:

  • 連接
  • 錯(cuò)誤率和丟包率
  • 延遲
  • 帶寬利用率

監(jiān)控網(wǎng)絡(luò)層可以幫助您提高內(nèi)部和外部服務(wù)的可用性和響應(yīng)能力关筒。

服務(wù)器集群指標(biāo)

在處理水平擴(kuò)展的基礎(chǔ)架構(gòu)時(shí)溶握,您需要為服務(wù)器集群添加某些指標(biāo)。雖然有關(guān)單個(gè)服務(wù)器的指標(biāo)很有用蒸播,但大規(guī)模的服務(wù)更多地體現(xiàn)為一組計(jì)算機(jī)執(zhí)行工作并對(duì)請(qǐng)求做出充分響應(yīng)的能力睡榆。這種類型的度量在很多方面只是應(yīng)用程序和服務(wù)器度量的更高級(jí)別推斷,但在這種情況下袍榆,資源是同構(gòu)服務(wù)器而不是機(jī)器級(jí)組件胀屿。您可能想要跟蹤的一些數(shù)據(jù)是:

  • 集群池資源使用情況
  • 縮放調(diào)整指標(biāo)
  • 降級(jí)的實(shí)例

收集總結(jié)服務(wù)器集合運(yùn)行狀況的數(shù)據(jù)對(duì)于了解系統(tǒng)處理負(fù)載和響應(yīng)具有非常重要的作用。

外部依賴指標(biāo)

您可能希望添加到系統(tǒng)的其他指標(biāo)是與外部依賴關(guān)系相關(guān)的指標(biāo)包雀。通常宿崭,服務(wù)通過(guò)提供狀態(tài)頁(yè)面或API來(lái)發(fā)現(xiàn)服務(wù)中斷,但在您自己的系統(tǒng)中跟蹤這些內(nèi)容以及您與服務(wù)的實(shí)際交互可以幫助您識(shí)別可能影響您運(yùn)營(yíng)的提供商問(wèn)題才写∑隙遥可能適用于此級(jí)別跟蹤的某些指標(biāo)包括:

  • 服務(wù)狀態(tài)和可用性
  • 成功率和錯(cuò)誤率
  • 運(yùn)行率和運(yùn)營(yíng)成本
  • 資源枯竭

還有許多其他類型的指標(biāo)可以幫助收集奖蔓。不同側(cè)重點(diǎn)的重要信息可以幫助您確定對(duì)預(yù)測(cè)或識(shí)別問(wèn)題,成為最有用的指標(biāo)讹堤。請(qǐng)記住吆鹤,較高級(jí)別上最有價(jià)值的指標(biāo)可能是由較低層提供的資源。

影響您選擇監(jiān)控的因素

影響您選擇收集和采取行動(dòng)的一些因素包括:

  • 可用于跟蹤的資源:根據(jù)您的人力資源蜕劝,基礎(chǔ)架構(gòu)和預(yù)算檀头,您必須將您所跟蹤的范圍限制為您能夠負(fù)擔(dān)得起并合理管理的范圍轰异。
  • 應(yīng)用程序的復(fù)雜性和目的:應(yīng)用程序或系統(tǒng)的復(fù)雜性會(huì)對(duì)您選擇跟蹤的內(nèi)容產(chǎn)生很大影響岖沛。可能對(duì)某些軟件至關(guān)重要的項(xiàng)目在其他軟件中可能并不重要搭独。
  • 部署環(huán)境:雖然強(qiáng)大的監(jiān)控對(duì)于生產(chǎn)系統(tǒng)來(lái)說(shuō)是最重要的婴削,但是分段系統(tǒng)和測(cè)試系統(tǒng)也可以從監(jiān)控中受益,盡管嚴(yán)重性牙肝,粒度和測(cè)量的總體指標(biāo)可能存在差異唉俗。
  • 度量標(biāo)準(zhǔn)有用的可能性:影響某些事物是否被衡量的最重要因素之一是它有可能在未來(lái)發(fā)揮作用。跟蹤的每個(gè)附加度量標(biāo)準(zhǔn)都會(huì)增加系統(tǒng)的復(fù)雜性并占用資源配椭。數(shù)據(jù)的必要性也可能隨時(shí)間而變化虫溜,需要定期重新評(píng)估。
  • 穩(wěn)定性的基本要素:簡(jiǎn)單地說(shuō)股缸,穩(wěn)定性和正常運(yùn)行時(shí)間可能不是某些類型的個(gè)人或早期項(xiàng)目的優(yōu)先事項(xiàng)衡楞。

影響您決策的因素取決于您的可用資源,項(xiàng)目的成熟度以及您所需的服務(wù)水平敦姻。

指標(biāo)瘾境,監(jiān)控和警報(bào)系統(tǒng)的重要性質(zhì)

雖然每個(gè)監(jiān)控應(yīng)用程序或服務(wù)都有其優(yōu)點(diǎn)和缺點(diǎn),但最佳選擇通常具有一些重要的特性镰惦。下面評(píng)估監(jiān)測(cè)系統(tǒng)時(shí)要考慮的一些更重要的特征迷守。

獨(dú)立于大多數(shù)其他基礎(chǔ)設(shè)施

監(jiān)控系統(tǒng)的最基本要求之一是在其他服務(wù)之外。雖然將服務(wù)組合在一起有時(shí)很有用旺入,但監(jiān)控系統(tǒng)的核心職責(zé)兑凿,診斷問(wèn)題的有用性以及與監(jiān)控系統(tǒng)的關(guān)系意味著監(jiān)控系統(tǒng)的獨(dú)立可訪問(wèn)性非常重要。您的監(jiān)控系統(tǒng)將不可避免地對(duì)其監(jiān)控的系統(tǒng)產(chǎn)生一些影響茵瘾,但您應(yīng)該盡量減少這種影響礼华,以減少跟蹤對(duì)性能的影響,并在發(fā)生其他系統(tǒng)問(wèn)題時(shí)提高監(jiān)控的可靠性龄捡。

可靠卓嫂,值得信賴

另一個(gè)基本要求是可靠性。由于監(jiān)控系統(tǒng)負(fù)責(zé)收集聘殖,存儲(chǔ)和提供對(duì)高價(jià)值信息的訪問(wèn)晨雳,因此您必須相信它能夠每天正常運(yùn)行行瑞。丟失的指標(biāo),服務(wù)中斷和不可靠的警報(bào)都會(huì)對(duì)您有效管理能力產(chǎn)生直接的有害影響餐禁。這不僅適用于核心軟件可靠性血久,也適用于您啟用的配置,因?yàn)椴粶?zhǔn)確的警報(bào)等錯(cuò)誤可能會(huì)導(dǎo)致系統(tǒng)失去信任帮非。

易于使用的摘要和詳細(xì)信息視圖

顯示高級(jí)摘要并按需提供更多詳細(xì)信息的能力是確保指標(biāo)數(shù)據(jù)對(duì)操作員有用且可操作的重要特征氧吐。以可立即理解的方式呈現(xiàn)最常見(jiàn)數(shù)據(jù)的儀表板可幫助用戶一目了然地了解系統(tǒng)狀態(tài)∧┛可以為不同的工作職能或感興趣的領(lǐng)域創(chuàng)建許多不同的儀表板視圖筑舅。

同樣重要的是能夠從摘要顯示中向下鉆取以顯示與當(dāng)前任務(wù)最相關(guān)的信息。動(dòng)態(tài)調(diào)整圖表的比例陨舱,切換不必要的指標(biāo)以及覆蓋來(lái)自多個(gè)系統(tǒng)的信息對(duì)于使工具以交互方式用于調(diào)查或根本原因分析至關(guān)重要翠拣。

維護(hù)歷史數(shù)據(jù)的有效策略

當(dāng)監(jiān)控系統(tǒng)具有豐富的數(shù)據(jù)歷史記錄,可以幫助建立長(zhǎng)時(shí)間線上的趨勢(shì)游盲,模式和一致性時(shí)误墓,它是最有用的。理想情況下益缎,所有信息都將以其原始粒度無(wú)限期保留谜慌。成本和資源限制有時(shí)可能需要以較低的分辨率存儲(chǔ)較舊的數(shù)據(jù)。監(jiān)控系統(tǒng)具有以全粒度和采樣格式處理數(shù)據(jù)的靈活性莺奔,為如何處理不斷增加的數(shù)據(jù)量提供了更廣泛的選擇欣范。

一個(gè)有用的相關(guān)功能是能夠輕松導(dǎo)入現(xiàn)有數(shù)據(jù)集。如果降低歷史指標(biāo)的信息密度不是一個(gè)有吸引力的選擇弊仪,那么將舊數(shù)據(jù)導(dǎo)入到長(zhǎng)期存儲(chǔ)可能是更好的選擇熙卡。在這種情況下,您不需要在系統(tǒng)中維護(hù)舊數(shù)據(jù)励饵,但是當(dāng)您希望分析或使用它時(shí)驳癌,您需要能夠批量重新加載它。

能夠關(guān)聯(lián)不同來(lái)源的因素

監(jiān)控系統(tǒng)負(fù)責(zé)提供整個(gè)基礎(chǔ)架構(gòu)的整體視圖役听,因此它需要能夠顯示相關(guān)信息颓鲜,即使它來(lái)自不同的系統(tǒng)或具有不同的特征。管理員應(yīng)該能夠?qū)?lái)自其系統(tǒng)的不同部分的信息粘合在一起典予,以了解整個(gè)基礎(chǔ)架構(gòu)中的潛在交互和整體狀態(tài)甜滨。確保在整個(gè)系統(tǒng)中配置時(shí)間同步是能夠可靠地關(guān)聯(lián)來(lái)自不同系統(tǒng)的數(shù)據(jù)的先決條件。

易于開(kāi)始跟蹤新指標(biāo)或基礎(chǔ)架構(gòu)

為了使您的監(jiān)控系統(tǒng)準(zhǔn)確地表示您的系統(tǒng)瘤袖,您需要能夠隨著機(jī)器和基礎(chǔ)設(shè)施的變化進(jìn)行調(diào)整衣摩。添加額外機(jī)器時(shí)的最小摩擦力將有助于您這樣做。同樣重要的是能夠在不破壞與其相關(guān)的收集數(shù)據(jù)的情況下輕松移除退役機(jī)器捂敌。系統(tǒng)應(yīng)使這些操作盡可能簡(jiǎn)單艾扮,以鼓勵(lì)將監(jiān)視設(shè)置為實(shí)例配置或報(bào)廢過(guò)程的一部分既琴。

相關(guān)的能力很重要,可以輕松設(shè)置監(jiān)控系統(tǒng)以跟蹤全新的指標(biāo)泡嘴。這取決于核心監(jiān)視配置中度量標(biāo)準(zhǔn)的定義方式甫恩,以及可用于將度量標(biāo)準(zhǔn)數(shù)據(jù)發(fā)送到系統(tǒng)的機(jī)制的種類和質(zhì)量。定義新指標(biāo)通常比添加其他計(jì)算機(jī)更復(fù)雜酌予,但降低添加或調(diào)整指標(biāo)的復(fù)雜性將有助于您的團(tuán)隊(duì)在適當(dāng)?shù)臅r(shí)間范圍內(nèi)響應(yīng)不斷變化的需求磺箕。

靈活而強(qiáng)大的警報(bào)

要評(píng)估的監(jiān)控系統(tǒng)最重要的一個(gè)方面是其警報(bào)功能。除了非常嚴(yán)格的可靠性要求之外抛虫,警報(bào)系統(tǒng)還需要足夠靈活松靡,以通過(guò)多種媒介通知操作員,并且功能強(qiáng)大莱褒,能夠構(gòu)成周到击困,可操作的通知觸發(fā)器涎劈。許多系統(tǒng)通過(guò)提供與現(xiàn)有尋呼服務(wù)或信使應(yīng)用程序的集成广凸,將實(shí)際向其他方傳遞通知的責(zé)任推遲。這最大限度地減少了警報(bào)功能的責(zé)任蛛枚,并且通常提供更靈活的選項(xiàng)谅海,因?yàn)椴寮恍枰褂猛獠緼PI。

但是蹦浦,監(jiān)控系統(tǒng)無(wú)法推遲的部分是定義警報(bào)參數(shù)扭吁。警報(bào)是根據(jù)超出可接受范圍的值定義的,但定義可能需要一些細(xì)微差別以避免過(guò)度警報(bào)盲镶。例如侥袜,瞬間尖峰通常不是問(wèn)題,但持續(xù)升高的負(fù)載可能需要操作員注意溉贿。能夠清楚地定義警報(bào)的參數(shù)是構(gòu)成健壯枫吧,可靠的一組警報(bào)條件的要求。

附加術(shù)語(yǔ)

在探索監(jiān)控生態(tài)系統(tǒng)時(shí)宇色,您將開(kāi)始遇到一組共享術(shù)語(yǔ)九杂,這些術(shù)語(yǔ)經(jīng)常用于討論監(jiān)控系統(tǒng)的特性,正在處理的數(shù)據(jù)以及需要考慮的不同權(quán)衡宣蠕。雖然并非詳盡無(wú)遺例隆,但下面的列表可以幫助您了解一些您最有可能遇到的術(shù)語(yǔ)。

  • 可觀察性:雖然沒(méi)有嚴(yán)格定義抢蚀,但可觀察性是一個(gè)通用術(shù)語(yǔ)镀层,用于描述與提高對(duì)系統(tǒng)的認(rèn)識(shí)和可見(jiàn)性相關(guān)的過(guò)程和技術(shù)。這可以包括監(jiān)控皿曲,指標(biāo)唱逢,可視化羡微,跟蹤和日志分析。
  • 資源:在監(jiān)控和軟件系統(tǒng)的環(huán)境中惶我,資源是任何可耗盡或有限的依賴妈倔。根據(jù)所討論的系統(tǒng)的特征,被認(rèn)為是資源的內(nèi)容可能有很大差異绸贡。
  • 延遲:延遲是衡量完成操作所需時(shí)間的指標(biāo)盯蝴。依賴于組件的可以衡量的處理、響應(yīng)或傳遞時(shí)間听怕。
  • 吞吐量:吞吐量表示系統(tǒng)可以處理的最大處理速率捧挺。這可能取決于軟件或硬件設(shè)計(jì)。通常尿瞭,理論吞吐量與實(shí)際觀察到的吞吐量之間存在重要區(qū)別闽烙。
  • 績(jī)效:績(jī)效是衡量系統(tǒng)完成工作效率的一般指標(biāo)。性能是一個(gè)總稱声搁,通常包含吞吐量黑竞,延遲或資源消耗等工作因素。
  • 飽和度:飽和度是衡量所用容量的指標(biāo)疏旨。完全飽和表示當(dāng)前正在使用100%的容量很魂。
  • 可視化:可視化是以一種格式化呈現(xiàn)度量數(shù)據(jù)的過(guò)程,該格式允許通過(guò)圖形或圖表進(jìn)行快速檐涝,直觀的解釋遏匆。
  • 日志聚合:日志聚合是編譯,組織和索引日志文件的行為谁榜,以便于管理幅聘,搜索和分析。雖然與監(jiān)控分開(kāi)窃植,但聚合日志可與監(jiān)控系統(tǒng)結(jié)合使用帝蒿,以識(shí)別原因并調(diào)查故障。
  • 數(shù)據(jù)點(diǎn):數(shù)據(jù)點(diǎn)是單個(gè)指標(biāo)的單次測(cè)量撕瞧。
  • 數(shù)據(jù)集:數(shù)據(jù)集是度量標(biāo)準(zhǔn)的數(shù)據(jù)點(diǎn)集合陵叽。
  • 單位:?jiǎn)挝皇菧y(cè)量值的上下文。單位定義測(cè)量的大小丛版,范圍或數(shù)量以了解范圍并允許比較巩掺。
  • 百分比單位:百分比單位是作為有限整體的一部分的測(cè)量值。百分比單位表示一個(gè)值在總量中的占有多少页畦。
  • 速率單位:速率單位表示在一段固定時(shí)間內(nèi)度量的大小胖替。
  • 時(shí)間序列:時(shí)間序列數(shù)據(jù)是一系列表示隨時(shí)間變化的數(shù)據(jù)點(diǎn)。大多數(shù)指標(biāo)最好用時(shí)間序列表示,因?yàn)閱蝹€(gè)數(shù)據(jù)點(diǎn)通常表示特定時(shí)間的值独令,結(jié)果系列點(diǎn)用于顯示隨時(shí)間的變化端朵。
  • 采樣率:采樣率是對(duì)代表性數(shù)據(jù)點(diǎn)的采集頻率的測(cè)量,而不是連續(xù)采集燃箭。更高的采樣率更準(zhǔn)確地表示測(cè)量的行為冲呢,但需要更多的資源來(lái)處理額外的數(shù)據(jù)點(diǎn)。
  • 分辨率:分辨率是指構(gòu)成數(shù)據(jù)集的數(shù)據(jù)點(diǎn)的密度招狸。在相同時(shí)間范圍內(nèi)具有更高分辨率的集合表示更高的采樣率和對(duì)相同行為的更細(xì)粒度的視圖敬拓。
  • 儀表:儀表是跟蹤軟件行為和性能的能力。這是通過(guò)向軟件添加代碼和配置來(lái)輸出數(shù)據(jù)然后由監(jiān)控系統(tǒng)使用來(lái)實(shí)現(xiàn)的裙戏。
  • 觀察者效應(yīng):觀察者效應(yīng)是監(jiān)測(cè)系統(tǒng)本身對(duì)所觀察現(xiàn)象的影響乘凸。由于監(jiān)測(cè)占用資源,因此衡量行為和績(jī)效的行為將改變所產(chǎn)生的價(jià)值累榜。監(jiān)控系統(tǒng)試圖避免增加不必要的開(kāi)銷以最小化這種影響营勤。
  • 過(guò)度監(jiān)控:當(dāng)配置的指標(biāo)和警報(bào)數(shù)量與其有用性成反比時(shí),就會(huì)發(fā)生過(guò)度監(jiān)控壹罚。過(guò)度監(jiān)控可能會(huì)對(duì)基礎(chǔ)架構(gòu)造成壓力葛作,使查找相關(guān)數(shù)據(jù)變得困難,并導(dǎo)致團(tuán)隊(duì)失去對(duì)其監(jiān)控和警報(bào)系統(tǒng)的信任渔嚷。
  • 警報(bào)疲勞:警報(bào)疲勞是由于頻繁进鸠,不可靠或不正確的優(yōu)先級(jí)警報(bào)導(dǎo)致的人類對(duì)敏感性的反應(yīng)。警報(bào)疲勞可能導(dǎo)致操作員忽略嚴(yán)重問(wèn)題形病,并且通常表明警報(bào)條件需要重新評(píng)估。
  • 閾值:警報(bào)時(shí)霞幅,閾值是可接受值和不可接受值之間的邊界漠吻,如果超出則觸發(fā)警報(bào)。警報(bào)通常配置為在值超過(guò)閾值一段時(shí)間時(shí)觸發(fā)司恳,以避免發(fā)送臨時(shí)峰值警報(bào)途乃。
  • 分位數(shù):分位數(shù)是用于根據(jù)數(shù)值將數(shù)據(jù)集分成不同組的分界點(diǎn)。分位數(shù)用于將值放入表示數(shù)據(jù)群的片段的“桶”中扔傅。通常耍共,這用于將常見(jiàn)值與異常值分開(kāi),以更好地理解代表性和極端情況的構(gòu)成猎塞。
  • 趨勢(shì):趨勢(shì)是一組值指示的大致方向试读。在確定被跟蹤組件的一般狀態(tài)時(shí),趨勢(shì)比單個(gè)值更可靠荠耽。
  • 白盒監(jiān)控:白盒監(jiān)控是一個(gè)術(shù)語(yǔ)钩骇,用于描述依賴于對(duì)被測(cè)組件內(nèi)部狀態(tài)的訪問(wèn)的監(jiān)控。白盒監(jiān)控可以提供對(duì)系統(tǒng)狀態(tài)的詳細(xì)了解,有助于識(shí)別問(wèn)題的原因倘屹。
  • 黑盒監(jiān)控:黑盒監(jiān)控是監(jiān)控银亲,通過(guò)僅查看其輸入,輸出和行為來(lái)觀察系統(tǒng)或組件的外部狀態(tài)纽匙。這種類型的監(jiān)控可以與用戶對(duì)系統(tǒng)的體驗(yàn)密切配合务蝠,但對(duì)于找出問(wèn)題的原因則沒(méi)那么有用。

結(jié)論

收集指標(biāo)烛缔,監(jiān)控組件和配置警報(bào)是設(shè)置和管理生產(chǎn)基礎(chǔ)架構(gòu)的重要部分请梢。它們能夠分辨您系統(tǒng)中發(fā)生的事情,需要注意哪些資源力穗,以及導(dǎo)致速度減慢或中斷的原因是什么毅弧。雖然設(shè)計(jì)和實(shí)施監(jiān)控設(shè)置可能是一項(xiàng)挑戰(zhàn),但這方面的投資可以幫助您的團(tuán)隊(duì)確定工作的優(yōu)先級(jí)当窗,將監(jiān)督責(zé)任委派給自動(dòng)化系統(tǒng)够坐,并了解基礎(chǔ)架構(gòu)和軟件對(duì)您的穩(wěn)定性和性能的影響。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末崖面,一起剝皮案震驚了整個(gè)濱河市元咙,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌巫员,老刑警劉巖庶香,帶你破解...
    沈念sama閱讀 217,542評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異简识,居然都是意外死亡赶掖,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)七扰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)奢赂,“玉大人,你說(shuō)我怎么就攤上這事颈走∩旁睿” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,912評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵立由,是天一觀的道長(zhǎng)轧钓。 經(jīng)常有香客問(wèn)我,道長(zhǎng)锐膜,這世上最難降的妖魔是什么毕箍? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,449評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮枣耀,結(jié)果婚禮上霉晕,老公的妹妹穿的比我還像新娘庭再。我一直安慰自己,他們只是感情好牺堰,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布拄轻。 她就那樣靜靜地躺著,像睡著了一般伟葫。 火紅的嫁衣襯著肌膚如雪恨搓。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,370評(píng)論 1 302
  • 那天筏养,我揣著相機(jī)與錄音斧抱,去河邊找鬼。 笑死渐溶,一個(gè)胖子當(dāng)著我的面吹牛辉浦,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播茎辐,決...
    沈念sama閱讀 40,193評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼宪郊,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了拖陆?” 一聲冷哼從身側(cè)響起弛槐,我...
    開(kāi)封第一講書(shū)人閱讀 39,074評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎依啰,沒(méi)想到半個(gè)月后乎串,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡速警,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評(píng)論 3 335
  • 正文 我和宋清朗相戀三年叹誉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坏瞄。...
    茶點(diǎn)故事閱讀 39,841評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡桂对,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出鸠匀,到底是詐尸還是另有隱情,我是刑警寧澤逾柿,帶...
    沈念sama閱讀 35,569評(píng)論 5 345
  • 正文 年R本政府宣布缀棍,位于F島的核電站,受9級(jí)特大地震影響机错,放射性物質(zhì)發(fā)生泄漏爬范。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評(píng)論 3 328
  • 文/蒙蒙 一弱匪、第九天 我趴在偏房一處隱蔽的房頂上張望青瀑。 院中可真熱鬧,春花似錦、人聲如沸斥难。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,783評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)哑诊。三九已至群扶,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間镀裤,已是汗流浹背竞阐。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,918評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留暑劝,地道東北人骆莹。 一個(gè)月前我還...
    沈念sama閱讀 47,962評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像担猛,于是被迫代替她去往敵國(guó)和親幕垦。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容