從 IT 中斷中學到的最佳監(jiān)控實踐

每個運維監(jiān)控工具,一般要追蹤數(shù)十萬個內部性能指標男公。學會對哪些事件進行告警以及監(jiān)控確實需要花費想當長的一段時間。因為,并非所有的指標等級都是一致窿锉。因此我們需要摸索出一套簡單的方法,便于管理所有指標膝舅,而且簡單易學嗡载。以下為我們總結的 Datadog 的一些實踐經(jīng)驗。

監(jiān)控目標

首先我們應該了解我們?yōu)槭裁茨阋ㄙM心力實現(xiàn)更好的監(jiān)控? 以下三點為總結的監(jiān)控目標:

  1. 在客戶及老板覺察之前發(fā)現(xiàn)問題

  2. 了解系統(tǒng)以及應用的運行狀況

  3. 盡可能降低你的壓力水平

指標分類

在了解目標后仍稀,應該清楚各個指標的種類洼滚。如你的監(jiān)控工具追蹤了哪些指標 ? 常見的指標有:CPU 使用量,內存使用量技潘,數(shù)據(jù)庫或 Web 請求遥巴。指標的種類多種多樣,但是所有指標都可歸入基本的兩大類:工作指標以及資源指標享幽。

工作指標

一般來說工作指標有兩大類:

  1. 工作指標測量系統(tǒng)或應用生產(chǎn)的有價值的事物的量铲掐。例如,數(shù)據(jù)庫每秒返回的查詢數(shù)量值桩,Web 服務器每秒發(fā)送的網(wǎng)頁數(shù)量摆霉。因為,數(shù)據(jù)庫的主要功能在于返回查詢結果奔坟,Web 服務器則在于為網(wǎng)頁提供服務携栋。

  2. 應用帶來的經(jīng)濟效益,比如收入蛀蜜。這種指標可以直觀地追蹤應用以及基礎架構的可用性刻两,便于了解其運行效率,因此更加有用滴某。

資源指標

資源是用于生產(chǎn)價值所消耗的事物磅摹。因此滋迈,資源指標用于測量完成某項工作、生產(chǎn)某些內容所消耗的事物的量户誓。

你若是問“數(shù)據(jù)庫使用了多少 CPU ?”饼灿,這種問題往往無益于判定應用的效用。因為一般的回答是:“ 我有足夠的 CPU ”帝美,或者 “ 我的 CPU 使用量已經(jīng)到達極限了 ”碍彭。

對于內存,磁盤悼潭,網(wǎng)頁帶寬等資源的提問也是如此庇忌。通常,資源指標會用于容量規(guī)劃舰褪,而非可用性管理皆疹。

優(yōu)化監(jiān)控方案

了解了工作指標與資源指標之后,我們可以進一步討論最佳實踐方案占拍。

1.將關鍵指標分為工作或資源指標

審視關鍵指標略就,尤其是那些是你真正在意的指標。再將它們歸類為工作指標或資源指標晃酒。

2.僅為工作指標設置告警

分類完成之后(請務必花時間進行分類表牢,這很重要),你需要確定為哪些指標設置告警贝次。事實上崔兴,你應該僅為工作指標設置告警。換言之浊闪,你應該為測量系統(tǒng)可用程度的指標設置告警恼布。

不過,給指示應用宕機的首要資源指標設置告警也很有益搁宾。比如折汞,磁盤空間是一種資源指標。然而盖腿,如果磁盤空間耗盡了爽待,整個應用就無法運轉,因此翩腐,為這類指標設置告警也很重要鸟款。但是,總體而言茂卦,為資源指標設置告警的情況非常罕見何什。

3.僅為可操作的工作指標設置告警

針對上一條最佳實踐的一點修正是:僅為可操作的工作指標設置告警。換言之等龙,你應該為可以采取行動的工作指標設置告警处渣。

例如伶贰,對于 Web 服務器而已,可操作的工作指標可以是每秒內無錯誤服務的網(wǎng)頁數(shù)量罐栈。這之所以是可操作的工作指標黍衙,是因為如果 Web 服務器服務的網(wǎng)頁數(shù)量為零,網(wǎng)站肯定不再運行荠诬,而是宕機了琅翻。這時候,你必須采取行動了柑贞。

無法操作的工作指標可以是 Web 服務器每秒服務的 404 頁面數(shù)量方椎。該指標之所以無法操作,是因為其完全取決于訪客的行為凌外。如果他們訪問許多不存在的 URL辩尊,那么肯定會生成許多 404 頁面。這并不是說網(wǎng)站性能不好康辑,而是訪客的行為超出了預期。因此轿亮,你不應該為不可操作的工作指標設置告警疮薇。

4.定期回顧檢查指標與告警

第四點,也可能是最難堅持的一點我注,是定期地回顧并檢查指標與告警按咒。你可以一周一次,兩周一次但骨,或者一個月一次励七,但請一定要在繁忙的任務表中劃出一些時間,與團隊一起進行回顧奔缠。

回到目標

現(xiàn)在掠抬,讓我們將這些最佳實踐與前文提到的監(jiān)控目標結合起來。請注意:將關鍵指標分類為工作指標或資源指標是一切的前提校哎。

1. 在客戶及老板覺察之前發(fā)現(xiàn)問題

僅為工作指標設置告警两波,可以避免一些無用的告警,從而達到更好的監(jiān)控結果闷哆。

2. 盡可能降低你的壓力水平

僅為可操作的工作指標設置告警腰奋,因為你不打算獲得無法控制的告警信息。

3. 了解系統(tǒng)以及應用的運行狀況

定期回顧并檢查指標與告警抱怔,可以對系統(tǒng)的運行狀況與性能趨勢有更深刻的感知劣坊,從而方便性能調優(yōu)。

通過這些最佳實踐屈留,可以增強你的監(jiān)控策略局冰。國內外有很多優(yōu)秀的監(jiān)控工具测蘑,如 ZabbixNagios 锐想、Datadog 帮寻、阿里云 、監(jiān)控寶赠摇、騰訊云等固逗。此外 OneAlert 是國內首個 SaaS 模式的云告警平臺,集成國內外主流監(jiān)控/支撐系統(tǒng)藕帜,實現(xiàn)一個平臺上集中處理所有 IT 事件烫罩,提升 IT 可靠性。
本文轉自 OneAPM 官方博客

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末洽故,一起剝皮案震驚了整個濱河市贝攒,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌时甚,老刑警劉巖隘弊,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異荒适,居然都是意外死亡梨熙,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進店門刀诬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咽扇,“玉大人,你說我怎么就攤上這事陕壹≈视” “怎么了?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵糠馆,是天一觀的道長嘶伟。 經(jīng)常有香客問我,道長榨惠,這世上最難降的妖魔是什么奋早? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮赠橙,結果婚禮上耽装,老公的妹妹穿的比我還像新娘。我一直安慰自己期揪,他們只是感情好掉奄,可當我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般姓建。 火紅的嫁衣襯著肌膚如雪诞仓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天速兔,我揣著相機與錄音墅拭,去河邊找鬼。 笑死涣狗,一個胖子當著我的面吹牛谍婉,可吹牛的內容都是我干的。 我是一名探鬼主播镀钓,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼穗熬,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了丁溅?” 一聲冷哼從身側響起唤蔗,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎窟赏,沒想到半個月后妓柜,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡涯穷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年领虹,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片求豫。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖诉稍,靈堂內的尸體忽然破棺而出蝠嘉,到底是詐尸還是另有隱情,我是刑警寧澤杯巨,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布蚤告,位于F島的核電站,受9級特大地震影響服爷,放射性物質發(fā)生泄漏杜恰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一仍源、第九天 我趴在偏房一處隱蔽的房頂上張望心褐。 院中可真熱鬧,春花似錦笼踩、人聲如沸逗爹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽掘而。三九已至挟冠,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間袍睡,已是汗流浹背知染。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留斑胜,地道東北人控淡。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像伪窖,于是被迫代替她去往敵國和親逸寓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,941評論 2 355

推薦閱讀更多精彩內容