數(shù)人云:最近兩天這個(gè)天呀汇陆,真是出門5分鐘巧娱,流汗2小時(shí)阿迈,小數(shù)保持冷靜,盤點(diǎn)5種DevOps事件管理工具间校,一起來(lái)消消暑吧:)
最少的BUG勺疼,最優(yōu)質(zhì)的代碼是開發(fā)的終極目標(biāo)教寂。正如Arkenea的創(chuàng)始人Rahul Varshneya在其文章中描述NASA的開發(fā)和處理軟件:“所有應(yīng)用都有BUG≈绰”盡管有成百上千的人在規(guī)劃酪耕、研發(fā)、測(cè)試NASA的代碼轨淌,但負(fù)責(zé)宇航員生活的應(yīng)用仍然存在BUG迂烁。
DevOps的目標(biāo)——確保在生產(chǎn)中能夠檢測(cè)到的每一個(gè)BUG,并根據(jù)其應(yīng)用功能或者可用性的影響度來(lái)分級(jí)猿诸、及時(shí)處理婚被。由DevOps處理的生產(chǎn)問(wèn)題稱為“事件”。
1998年梳虽,NASA發(fā)射火星氣候探測(cè)器址芯,作為火星極地登錄計(jì)劃的一部分。1999年9月23日窜觉,軌道飛行器失聯(lián)谷炸,一隊(duì)技術(shù)人員花費(fèi)24個(gè)小時(shí)以上的時(shí)間,嘗試深空網(wǎng)絡(luò)天線用以恢復(fù)聯(lián)系禀挫。若只知道其在幾百萬(wàn)英里以外旬陡,但不知確切位置,該如何解決此問(wèn)題语婴?
NASA發(fā)布的Twitter:
盡管運(yùn)維團(tuán)隊(duì)一直在遵循著ITIL原則描孟,但以現(xiàn)在來(lái)說(shuō)略顯過(guò)時(shí)驶睦。隨著應(yīng)用發(fā)布時(shí)間縮短,標(biāo)準(zhǔn)的SLA用于宕機(jī)或缺陷辨識(shí)度為0匿醒,DevOps和事件管理過(guò)程必須做出相應(yīng)調(diào)整场航。事件需分類和優(yōu)先排序,最好有自動(dòng)服務(wù)廉羔,與相關(guān)的程序員和測(cè)試進(jìn)行合作分配處理溉痢,在一天內(nèi)給出解決方案。
面向客戶的DevOps人員應(yīng)24小時(shí)跨時(shí)區(qū)覆蓋憋他,每個(gè)SLA漏洞都要觸發(fā)升級(jí)孩饼,并迅速涉及到更高技術(shù)層。為了讓應(yīng)用始終運(yùn)行竹挡、正確處理事件镀娶、符合標(biāo)準(zhǔn),需要事件管理工具此迅,本文將列舉5個(gè):
PagerDuty
PagerDuty是自動(dòng)化處理的系統(tǒng)汽畴,可以將在生產(chǎn)維護(hù)上投入的時(shí)間精力降低到最低。該工具通過(guò)應(yīng)用環(huán)境中的所有系統(tǒng)對(duì)告警和時(shí)間進(jìn)行排序耸序,并洞察其中的關(guān)聯(lián)進(jìn)行分組忍些。減少了同一事件連續(xù)告警的問(wèn)題,有助于將焦點(diǎn)放在實(shí)際時(shí)間上坎怪,提高解決效率罢坝。PagerDuty允許用戶定制告警,且向相關(guān)人員發(fā)送信息搅窿,幫助解決所有類型的問(wèn)題嘁酿。
該工具收集信息從數(shù)據(jù)庫(kù)中讀取模式,助力自動(dòng)升級(jí)男应,根據(jù)應(yīng)用特定區(qū)域的前幾次事件闹司,給出基本決策。為DevOps管理人員提供所有事件及狀態(tài)的實(shí)時(shí)視圖沐飘。作為實(shí)時(shí)儀表板的一部分游桩,事件能夠相關(guān)聯(lián),管理人員可以進(jìn)行深入研究耐朴,對(duì)事件的生命周期和路由做出對(duì)策借卧。
該工具提供的分析和報(bào)告能跟蹤系統(tǒng)性能趨勢(shì)并分析故障根源。還可監(jiān)控不同團(tuán)隊(duì)的工作效率筛峭,為未來(lái)事件優(yōu)化處理生命周期铐刘。PagerDuty最近推出了一款手機(jī)應(yīng)用,用戶可以在任何時(shí)間影晓、地點(diǎn)管理和監(jiān)控生產(chǎn)事件镰吵。PagerDuty也集成了150多個(gè)監(jiān)控檩禾、部署的工具,因此在核心系統(tǒng)中很容易實(shí)現(xiàn)并立即查看結(jié)果捡遍。
OpsGenie
OpsGenie是一款在云端部署告警和監(jiān)控的應(yīng)用锌订,路由、通知規(guī)則和移動(dòng)效率是OpsGenie的特色画株。使用該工具第一步要為告警和通知路由定義時(shí)間表,用于處理不同地區(qū)團(tuán)隊(duì)下班后的事件啦辐,且能發(fā)起適當(dāng)?shù)臎Q策操作谓传。
OpsGenie提供電話服務(wù)來(lái)跟進(jìn)未處理的告警,保持每個(gè)管理員的溝通和響應(yīng)芹关,并允許其根據(jù)事件的嚴(yán)重性和數(shù)量進(jìn)行分級(jí)告警续挟。OpsGenie的手機(jī)客戶端可以做出相應(yīng)的操作和決策。
生命周期和通知列表對(duì)每個(gè)告警都有詳細(xì)的記錄文檔侥衬,且可以后期處理诗祸,用來(lái)改進(jìn)流程中的問(wèn)題和提高效率。從易維護(hù)的角度看轴总,使用此工具的企業(yè)能將通知管理整合到分組里直颅,可以設(shè)置細(xì)節(jié)和偏好,防止數(shù)據(jù)重復(fù)怀樟,減少管理負(fù)擔(dān)功偿。
VictorOps
VictorOps將自己描述為PagerDutry的另一種選擇,是一個(gè)實(shí)時(shí)管理事件的平臺(tái)往堡,可以對(duì)突發(fā)事件作出響應(yīng)械荷,預(yù)知未來(lái)事件作出準(zhǔn)備。事件告警根據(jù)一個(gè)調(diào)用計(jì)劃發(fā)送虑灰,也可以被動(dòng)態(tài)重定向吨瞎。告警是動(dòng)態(tài)、可配置的穆咐,因此能夠被修改為包含服務(wù)日志的鏈接颤诀,或任何人都可以遵循的解決方案。利用與其他工具的集成庸娱,VictorOps構(gòu)建了一個(gè)“時(shí)間軸”着绊,顯示整個(gè)生態(tài)系統(tǒng)的信息,即可輕松調(diào)查事件熟尉,或與其他事件關(guān)聯(lián)归露。
VictorOps還引入了Transmogrifier,允許定制從告警到事件流的所有內(nèi)容斤儿,使得事件管理更為簡(jiǎn)單剧包,該工具內(nèi)置聊天功能恐锦,有助于團(tuán)隊(duì)協(xié)作,快速解決問(wèn)題疆液。
Jira
Jira服務(wù)平臺(tái)是Jira組合的一部分一铅,幫助開發(fā)和DevOps以最好的方式構(gòu)建、發(fā)布軟件堕油。服務(wù)為部門認(rèn)為服務(wù)是最耗時(shí)的潘飘,因此該工具提供了一種自助服務(wù)模塊,其中包含有用信息的知識(shí)庫(kù)掉缺,用戶可以在向客戶服務(wù)代理請(qǐng)求幫助之前自行查詢卜录。還可以應(yīng)用于ITIL驅(qū)動(dòng)的組織和使用較新的事件管理方法,通過(guò)集成問(wèn)題和變更管理模塊眶明,并為生產(chǎn)中的每一種事件生成詳細(xì)的工作流程艰毒。
Jira也提供了大量的API,允許和任何CRM或票務(wù)管理系統(tǒng)簡(jiǎn)單集成搜囱。因此Jira能讓企業(yè)更便于編輯服務(wù)平臺(tái)數(shù)據(jù)中心丑瞧,DevOps關(guān)注關(guān)鍵任務(wù)和企業(yè)能夠快速使用服務(wù)臺(tái),服務(wù)臺(tái)能讓企業(yè)編輯服務(wù)臺(tái)數(shù)據(jù)中心蜀肘,DevOps可以關(guān)注任務(wù)關(guān)鍵服務(wù)和容災(zāi)計(jì)劃绊汹。
FreshService
FreshService是一站式ITIL軟件,為整個(gè)IT運(yùn)營(yíng)部門提供解決方案幌缝。其事件管理模塊與不同的通道進(jìn)行通信灸促,使用電話、聊天涵卵、甚至電子郵件報(bào)告新的事件浴栽。每一個(gè)事件都被優(yōu)先處理,并且提供相關(guān)規(guī)則轿偎,自動(dòng)路由到合適的代理或團(tuán)隊(duì)典鸡。事件信息會(huì)被存儲(chǔ),分析坏晦,一旦解決萝玷,可以作為以后發(fā)生類似事件的方案建議。該工具有能力根據(jù)響應(yīng)事件自動(dòng)將事件分配給不同的團(tuán)隊(duì)昆婿。
FreshService還提供了一個(gè)診斷模塊球碉,允許用戶或客戶提交方案進(jìn)行診斷,并給出反饋仓蛆,團(tuán)隊(duì)根據(jù)反饋進(jìn)行改進(jìn)睁冬。 FreshService了解重大事件對(duì)不同企業(yè)的影響,在此基礎(chǔ)上看疙,建立了一個(gè)只處理重大事件的模塊豆拨,此模塊有獨(dú)立的進(jìn)程直奋、元數(shù)據(jù)、升級(jí)方法和更高的管理參與接口施禾。讓影響廣泛的脚线、跨部門的事件能夠快速有效處理。
結(jié)論
對(duì)事件SLA的正確的響應(yīng)弥搞、及時(shí)響應(yīng)是目標(biāo)邮绿,需要深入了解應(yīng)用的前后端,高端面向服務(wù)和正確的工具拓巧。本文所討論的工具可以作為處理過(guò)程的基礎(chǔ)設(shè)施斯碌,對(duì)相關(guān)人員進(jìn)行支持,提高效率和問(wèn)題改進(jìn)肛度。
正如沒(méi)有完美的應(yīng)用一樣,也沒(méi)有完美的事件管理工具投慈。本文概述了5個(gè)主要的事件管理工具承耿,如何處理生產(chǎn)服務(wù)中斷并嘗試解決。企業(yè)首先需要決定標(biāo)準(zhǔn)和服務(wù)目標(biāo)伪煤,根據(jù)特性和功能選擇工具加袋。
以下是這些事件管理工具之間的差異:
原文作者:Daniel Berman
原文鏈接:https://logz.io/blog/incident-management-systems/?utm_source=tuicool&utm_medium=referral