夏洛克·福爾摩斯型豁,一直以來(lái)柯南道爾筆下的福爾摩斯形象在人們的腦海中都栩栩如生僵蛛。敏銳的觀察力,縝密的推理思路迎变,豐富的專業(yè)知識(shí)充尉,一切撲朔迷離的刑事案件在他手中都能迎刃而解,一切的競(jìng)爭(zhēng)對(duì)手在他面前都如此的黯然失色衣形。他有一雙能夠看穿世界的眼睛,被他關(guān)注的人都好像身體上被安裝了監(jiān)控倒源,所有的行動(dòng)他都了如指掌笋熬。在福爾摩斯的領(lǐng)域中胳螟,任何的異動(dòng)都掌握在他的手中,并且這些異動(dòng)信息會(huì)第一時(shí)間到達(dá)他的手中秘遏。福爾摩斯教會(huì)了我們嘉竟,善于使用工具,能夠讓工作事半功倍倦蚪。
《血字的研究》一案中审丘,一把直尺滩报,一個(gè)放大鏡等等都成為了破案的重要工具播急,一群野孩子提供的信息的效率遠(yuǎn)遠(yuǎn)高于警方所能提供的信息桩警。再加上福爾摩斯全面的專業(yè)知識(shí),最終將謎題解開(kāi)握截。
如何利用簡(jiǎn)單實(shí)用的工具谨胞,再加上過(guò)硬的專業(yè)知識(shí)找到事實(shí)的真相呢蒜鸡?又如何成為運(yùn)維界的福爾摩斯呢逢防?運(yùn)維的基本工作就是保障公司網(wǎng)站服務(wù)的可用性忘朝,服務(wù)器運(yùn)行的穩(wěn)定性。那么如何對(duì)網(wǎng)站可用性脊另、對(duì)服務(wù)器的運(yùn)行狀態(tài)了如指掌约巷?出現(xiàn)問(wèn)題如何能夠接收到精準(zhǔn)的告警消息呢独郎?
請(qǐng) mark 下面三款工具:
Ct (Cloud Test) 主要是通過(guò)分布在全國(guó)各地的服務(wù)器對(duì)網(wǎng)站進(jìn)行持續(xù)的監(jiān)控氓癌,Ct 產(chǎn)品的價(jià)值在于網(wǎng)站管理員可以借此在終端用戶或顧客發(fā)現(xiàn)問(wèn)題之前發(fā)現(xiàn)問(wèn)題贪婉,知道網(wǎng)站或 web 應(yīng)用是否運(yùn)行緩慢卢肃,甚至宕機(jī)。Ct 產(chǎn)品不涉及真實(shí)的網(wǎng)站流量尤蒿,因此可以實(shí)現(xiàn) 7x24 小時(shí)的監(jiān)控腰池,或在正式發(fā)布 web 應(yīng)用之前進(jìn)行測(cè)試示弓。通過(guò) Ct 產(chǎn)品可以實(shí)時(shí)的了解網(wǎng)站在各個(gè)地域奏属,運(yùn)營(yíng)商的性能表現(xiàn)甘桑,結(jié)合真實(shí)用戶監(jiān)控產(chǎn)品 Browser Insight跑杭,能深入了解應(yīng)用的健康狀況。
通過(guò) Cloud Test爹橱,你可以:
單頁(yè)面監(jiān)控:分布全國(guó)的服務(wù)器對(duì)網(wǎng)頁(yè)性能進(jìn)行實(shí)時(shí)監(jiān)控糟红,提供網(wǎng)頁(yè)可用性、響應(yīng)時(shí)間柒爸、http 錯(cuò)誤等具體信息事扭,深入代碼級(jí)了解錯(cuò)誤詳情求橄,可用于監(jiān)控網(wǎng)頁(yè)谈撒、個(gè)人站點(diǎn),實(shí)時(shí)監(jiān)控網(wǎng)頁(yè)性能蛔外。
Ping 監(jiān)控:在運(yùn)維人員的日常工作中夹厌,對(duì)物理服務(wù)器的監(jiān)控十分重要矛纹。物理機(jī)的 CPU或南、內(nèi)存艾君、磁盤(pán)使用率冰垄,網(wǎng)卡流量,磁盤(pán) IO 等都需要進(jìn)行監(jiān)控隅要。通過(guò) ICMP 協(xié)議的 ping 監(jiān)控董济,可以判斷物理服務(wù)器運(yùn)行是否正掣芯郑或者網(wǎng)站是否出現(xiàn)故障暂衡。網(wǎng)絡(luò)不穩(wěn)定或者服務(wù)器宕機(jī)狂巢, ping 就產(chǎn)生報(bào)警,讓您在第一時(shí)間收到告警藻雌。這樣大大提升了運(yùn)維人員的工作效率胯杭。
API 監(jiān)控:對(duì)于商務(wù)運(yùn)算來(lái)說(shuō)一個(gè)比較穩(wěn)定的趨勢(shì)在于對(duì) API 日漸增長(zhǎng)的依賴性做个,幾乎每一個(gè)代碼級(jí)交互過(guò)程都會(huì)調(diào)用 API 來(lái)收集數(shù)據(jù)或觸發(fā)某些關(guān)鍵過(guò)程居暖,這就帶來(lái)一個(gè)問(wèn)題太闺,開(kāi)發(fā)者怎么才能確定開(kāi)發(fā)者的應(yīng)用是由于開(kāi)發(fā)者自己的問(wèn)題還是由于第三方服務(wù)廠商的 API 問(wèn)題省骂,所以開(kāi)發(fā)者需要API監(jiān)控最住。
-
DNS 監(jiān)控:監(jiān)控 DNS 系統(tǒng)温学,防止網(wǎng)站 DNS 劫持(域名劫持)、域名過(guò)期或已被停止览妖、域名 DNS 服務(wù)器未解析讽膏、域名解析記錄為空或不正確等 DNS 服務(wù)器錯(cuò)誤拄丰。
既然有了實(shí)時(shí)的網(wǎng)站可用性監(jiān)控奄侠,那么對(duì)服務(wù)器的基礎(chǔ)組件監(jiān)控需求也是必不可少的。我推薦一些還在觀望 Zabbix 和 Nagios 的初創(chuàng)團(tuán)隊(duì)垄潮,可以試一試 Cloud Insight弯洗。
Ci(Cloud Insight) 集監(jiān)控牡整、管理溺拱、協(xié)作、計(jì)算秋泳、可視化于一身迫皱,減少在系統(tǒng)監(jiān)控上的人力和時(shí)間成本投入辖众,讓運(yùn)維工作變得更加高效凹炸、簡(jiǎn)單啤它。使用 Cloud Insight 操作簡(jiǎn)單舱痘,40s完成安裝芭逝,再配置上數(shù)據(jù)庫(kù)中間件監(jiān)控即可旬盯,其它的就直接在 Web 上查看翎猛,操作切厘。
通過(guò) Cloud Insight,你可以:
- 關(guān)注服務(wù)器內(nèi)存员萍,流量碎绎,CPU 等基本性能指標(biāo)抗果,每天都可以檢測(cè)服務(wù)器性能冤馏,哪天數(shù)據(jù)有巨幅變化那就要趕緊查查是哪出問(wèn)題了逮光。
- 高可視化涕刚,關(guān)注數(shù)據(jù)庫(kù)增刪減查操作,慢查詢等條件极景,主從復(fù)制狀態(tài),將關(guān)注的數(shù)據(jù)制定一個(gè)自定義儀表盤(pán)塞绿,順道再設(shè)置個(gè)報(bào)警异吻,這樣數(shù)據(jù)庫(kù)有任何異常喜庞,都會(huì)第一時(shí)間得到通知延都,及時(shí)相應(yīng)處理。
- 集群管理與可視化求摇,如果有多臺(tái)服務(wù)器与境,這幾臺(tái)用作 webserver猖吴,這幾臺(tái)用做 database海蔽,那幾臺(tái)做 DNS党窜,設(shè)置不同的 tag ,通過(guò)拓補(bǔ)圖分開(kāi)聚合展示矾削,分分鐘總覽集群全貌怔软。
- 多人合作挡逼,對(duì)接簡(jiǎn)聊家坎,BearyChat,瀑布等 ChatOps 工具惹骂,將操作事件流同步到多個(gè)即時(shí)通訊里面对粪,匯集報(bào)警著拭、探針啟動(dòng)和操作歷史記錄于一身儡遮。能夠讓運(yùn)維人員暗赶、研發(fā)人員、管理人員十嘿,甚至運(yùn)營(yíng)人員都參與到 Cloud Insight 這個(gè)工具的使用中來(lái)详幽,溝通與協(xié)作效率更高。
有了強(qiáng)大的監(jiān)控工具還不夠健爬,完善的報(bào)警通知體系也是至關(guān)重要的么介。OneAlert 作為國(guó)內(nèi)首家云告警平臺(tái)壤短,能夠輕松集成 Ct,Ci 產(chǎn)品镰吆,提供更合理的告警方式(當(dāng)然 zabbix跑慕,nagios万皿,阿里云等監(jiān)控工具都可以集成)。
通過(guò) OneAlert 核行,你可以:
合理的通知體系:
不同的主機(jī)組告警消息發(fā)給特定的負(fù)責(zé)人牢硅,并且告警消息通過(guò)微信、短信钮科、郵件唤衫、電話、App 的方式通知绵脯,通知必達(dá)佳励。
不同類型的告警消息發(fā)到不同角色負(fù)責(zé)人手中,比如 MySQL 類型的告警消息我們可以選擇發(fā)給公司的 DBA 同事蛆挫,而網(wǎng)絡(luò)相關(guān)的告警消息我們可以選擇發(fā)給網(wǎng)絡(luò)工程師等瞧剖。
-
有效的告警升級(jí)機(jī)制能夠保證告警不會(huì)被遺漏浇借,告警在設(shè)置時(shí)間內(nèi)不確認(rèn)巾遭、不解決的時(shí)候涨薪,會(huì)升級(jí)到二線值班人員厢岂。
合適的時(shí)間選擇合適的通知方式:
- 當(dāng)告警消息來(lái)了,選擇一個(gè)好的通知方式是至關(guān)重要的。比如白天工作時(shí)間观谦,告警消息的推送只需要通過(guò)微信泻红、郵件的方式。而晚上下班時(shí)間休息時(shí)間蜀撑,告警消息推送可以選擇短信和電話兩種方式進(jìn)行通知,靈活的通知方式能夠達(dá)到事半功倍的效果母廷。
健全的告警分析體系:
- 好的告警分析機(jī)制能夠幫助管理者分析團(tuán)隊(duì)整體的工作情況,根據(jù) MTTR 作為評(píng)判標(biāo)準(zhǔn)抖拦,通過(guò)告警分析能夠分析出某一告警應(yīng)用某段時(shí)間內(nèi)處理情況复颈。而且 OneAlert 的分析機(jī)制也可以根據(jù)應(yīng)用驯遇、團(tuán)隊(duì)以及成員三個(gè)維度進(jìn)行分析,讓你真正認(rèn)識(shí)你的工作團(tuán)隊(duì)。
從 Ct 對(duì)網(wǎng)站可用性的實(shí)時(shí)監(jiān)控,再到 Ci 對(duì)服務(wù)器基礎(chǔ)組件的實(shí)時(shí)監(jiān)控,出現(xiàn)問(wèn)題有 OneAlert 健全的報(bào)警機(jī)制,通知必達(dá),網(wǎng)站服務(wù)有問(wèn)題及時(shí)監(jiān)控發(fā)現(xiàn)篮灼,告警消息多方式通知到位逢艘,服務(wù)器這點(diǎn)小事商乎,你還怕什么?總有一款適合你。
本文系國(guó)內(nèi) ITOM 管理平臺(tái) OneAPM 工程師原創(chuàng)文章幸冻。我們致力于幫助企業(yè)用戶提供全棧式的性能管理以及 IT 運(yùn)維管理服務(wù),通過(guò)一個(gè)探針就能夠完成日志分析、安全防護(hù)访娶、APM 基礎(chǔ)組件監(jiān)控叮趴、集成報(bào)警以及大數(shù)據(jù)分析等功能般码。想閱讀更多技術(shù)文章孤里,請(qǐng)?jiān)L問(wèn) OneAPM 官方技術(shù)博客
本文轉(zhuǎn)自 OneAPM 官方博客