每個運維監(jiān)控工具,一般要追蹤數(shù)十萬個內部性能指標男公。學會對哪些事件進行告警以及監(jiān)控確實需要花費想當長的一段時間。因為,并非所有的指標等級都是一致窿锉。因此我們需要摸索出一套簡單的方法,便于管理所有指標膝舅,而且簡單易學嗡载。以下為我們總結的 Datadog 的一些實踐經(jīng)驗。
監(jiān)控目標
首先我們應該了解我們?yōu)槭裁茨阋ㄙM心力實現(xiàn)更好的監(jiān)控? 以下三點為總結的監(jiān)控目標:
在客戶及老板覺察之前發(fā)現(xiàn)問題
了解系統(tǒng)以及應用的運行狀況
盡可能降低你的壓力水平
指標分類
在了解目標后仍稀,應該清楚各個指標的種類洼滚。如你的監(jiān)控工具追蹤了哪些指標 ? 常見的指標有:CPU 使用量,內存使用量技潘,數(shù)據(jù)庫或 Web 請求遥巴。指標的種類多種多樣,但是所有指標都可歸入基本的兩大類:工作指標以及資源指標享幽。
工作指標
一般來說工作指標有兩大類:
工作指標測量系統(tǒng)或應用生產(chǎn)的有價值的事物的量铲掐。例如,數(shù)據(jù)庫每秒返回的查詢數(shù)量值桩,Web 服務器每秒發(fā)送的網(wǎng)頁數(shù)量摆霉。因為,數(shù)據(jù)庫的主要功能在于返回查詢結果奔坟,Web 服務器則在于為網(wǎng)頁提供服務携栋。
應用帶來的經(jīng)濟效益,比如收入蛀蜜。這種指標可以直觀地追蹤應用以及基礎架構的可用性刻两,便于了解其運行效率,因此更加有用滴某。
資源指標
資源是用于生產(chǎn)價值所消耗的事物磅摹。因此滋迈,資源指標用于測量完成某項工作、生產(chǎn)某些內容所消耗的事物的量户誓。
你若是問“數(shù)據(jù)庫使用了多少 CPU ?”饼灿,這種問題往往無益于判定應用的效用。因為一般的回答是:“ 我有足夠的 CPU ”帝美,或者 “ 我的 CPU 使用量已經(jīng)到達極限了 ”碍彭。
對于內存,磁盤悼潭,網(wǎng)頁帶寬等資源的提問也是如此庇忌。通常,資源指標會用于容量規(guī)劃舰褪,而非可用性管理皆疹。
優(yōu)化監(jiān)控方案
了解了工作指標與資源指標之后,我們可以進一步討論最佳實踐方案占拍。
1.將關鍵指標分為工作或資源指標
審視關鍵指標略就,尤其是那些是你真正在意的指標。再將它們歸類為工作指標或資源指標晃酒。
2.僅為工作指標設置告警
分類完成之后(請務必花時間進行分類表牢,這很重要),你需要確定為哪些指標設置告警贝次。事實上崔兴,你應該僅為工作指標設置告警。換言之浊闪,你應該為測量系統(tǒng)可用程度的指標設置告警恼布。
不過,給指示應用宕機的首要資源指標設置告警也很有益搁宾。比如折汞,磁盤空間是一種資源指標。然而盖腿,如果磁盤空間耗盡了爽待,整個應用就無法運轉,因此翩腐,為這類指標設置告警也很重要鸟款。但是,總體而言茂卦,為資源指標設置告警的情況非常罕見何什。
3.僅為可操作的工作指標設置告警
針對上一條最佳實踐的一點修正是:僅為可操作的工作指標設置告警。換言之等龙,你應該為可以采取行動的工作指標設置告警处渣。
例如伶贰,對于 Web 服務器而已,可操作的工作指標可以是每秒內無錯誤服務的網(wǎng)頁數(shù)量罐栈。這之所以是可操作的工作指標黍衙,是因為如果 Web 服務器服務的網(wǎng)頁數(shù)量為零,網(wǎng)站肯定不再運行荠诬,而是宕機了琅翻。這時候,你必須采取行動了柑贞。
無法操作的工作指標可以是 Web 服務器每秒服務的 404 頁面數(shù)量方椎。該指標之所以無法操作,是因為其完全取決于訪客的行為凌外。如果他們訪問許多不存在的 URL辩尊,那么肯定會生成許多 404 頁面。這并不是說網(wǎng)站性能不好康辑,而是訪客的行為超出了預期。因此轿亮,你不應該為不可操作的工作指標設置告警疮薇。
4.定期回顧檢查指標與告警
第四點,也可能是最難堅持的一點我注,是定期地回顧并檢查指標與告警按咒。你可以一周一次,兩周一次但骨,或者一個月一次励七,但請一定要在繁忙的任務表中劃出一些時間,與團隊一起進行回顧奔缠。
回到目標
現(xiàn)在掠抬,讓我們將這些最佳實踐與前文提到的監(jiān)控目標結合起來。請注意:將關鍵指標分類為工作指標或資源指標是一切的前提校哎。
1. 在客戶及老板覺察之前發(fā)現(xiàn)問題
僅為工作指標設置告警两波,可以避免一些無用的告警,從而達到更好的監(jiān)控結果闷哆。
2. 盡可能降低你的壓力水平
僅為可操作的工作指標設置告警腰奋,因為你不打算獲得無法控制的告警信息。
3. 了解系統(tǒng)以及應用的運行狀況
定期回顧并檢查指標與告警抱怔,可以對系統(tǒng)的運行狀況與性能趨勢有更深刻的感知劣坊,從而方便性能調優(yōu)。
通過這些最佳實踐屈留,可以增強你的監(jiān)控策略局冰。國內外有很多優(yōu)秀的監(jiān)控工具测蘑,如 Zabbix 、Nagios 锐想、Datadog 帮寻、阿里云 、監(jiān)控寶赠摇、騰訊云等固逗。此外 OneAlert 是國內首個 SaaS 模式的云告警平臺,集成國內外主流監(jiān)控/支撐系統(tǒng)藕帜,實現(xiàn)一個平臺上集中處理所有 IT 事件烫罩,提升 IT 可靠性。
本文轉自 OneAPM 官方博客