系統(tǒng)崩了怎么辦,在線等

文章概要
- 生產(chǎn)問題分類
- 生產(chǎn)問題定位路徑
- 生產(chǎn)問題發(fā)現(xiàn)來源
- 數(shù)據(jù)大盤設(shè)計

生產(chǎn)問題分類

隨著業(yè)務(wù)的發(fā)展,由于內(nèi)部或外部的原因骄蝇,系統(tǒng)運(yùn)行迭代過程中總是會出現(xiàn)大大小小生產(chǎn)問題巡扇。

在進(jìn)行生產(chǎn)問題處理時會遇到各種各樣的問題,有時在人員流動性較大團(tuán)隊進(jìn)行老系統(tǒng)維護(hù)時讼油,一個隱藏的比較深的問題往往要花費(fèi)極大的時間進(jìn)行定位;或者在遇到大范圍生產(chǎn)服務(wù)不可用時呢簸,如何快速定位恢復(fù)系統(tǒng)問題矮台,保證系統(tǒng)穩(wěn)定性,作為一個質(zhì)控人員和開發(fā)經(jīng)理必須具備的技能根时。

按照生產(chǎn)問題發(fā)生的原因大致可分為兩種:服務(wù)穩(wěn)定性瘦赫、數(shù)據(jù)一致性


服務(wù)穩(wěn)定性

服務(wù)請求阻塞
服務(wù)請求丟失(中止)
服務(wù)假死
服務(wù)資源消費(fèi)異常
外源性服務(wù)阻礙

服務(wù)穩(wěn)定性問題是相對隱形的,常規(guī)邏輯驗(yàn)證一般無法發(fā)現(xiàn)蛤迎。內(nèi)部或外部服務(wù)受到網(wǎng)絡(luò)(網(wǎng)絡(luò)波動)确虱、流量波動(暴增)、物理資源不足等影響替裆,導(dǎo)致偶發(fā)性或間歇性服務(wù)理能力處下降校辩、丟失。

數(shù)據(jù)一致性

常規(guī)邏輯異常導(dǎo)致數(shù)據(jù)處理錯誤
偶發(fā)性(隱形)數(shù)據(jù)異常
外源性數(shù)據(jù)異常

數(shù)據(jù)一致性問題相對較容易暴露和定位扎唾,常見的都是由于運(yùn)營配置調(diào)整召川、代碼實(shí)現(xiàn)、產(chǎn)品業(yè)務(wù)設(shè)計問題導(dǎo)致胸遇。外源性數(shù)據(jù)問題的出現(xiàn)荧呐,除了外部數(shù)據(jù)不嚴(yán)謹(jǐn)外,系統(tǒng)對外接口過濾不足也是應(yīng)引起重視的問題纸镊。

生產(chǎn)問題定位路徑

服務(wù)可用性(直接與間接)
服務(wù)邏輯問題
數(shù)據(jù)溯源(包含代碼)
配置確認(rèn)
運(yùn)營日志

在實(shí)際定位生產(chǎn)問題的過程中倍阐,如果沒有大盤數(shù)據(jù)提供支撐,更多時候是根據(jù)經(jīng)驗(yàn)逗威,簡單觀察生產(chǎn)聚合日志峰搪,臨時查詢代碼、臨時編寫SQL凯旭,單點(diǎn)式定位問題概耻。這種情況下使套,若經(jīng)驗(yàn)不足,對相關(guān)代碼不熟悉鞠柄,則很難快速準(zhǔn)確定位到問題侦高,通常需要很長時間才能定位到問題,而且準(zhǔn)確定存疑厌杜。
通過合理的數(shù)據(jù)趨勢奉呛、縱向數(shù)據(jù)面板,結(jié)合報警信息夯尽,跟蹤錯誤日志堆棧信息涉及代碼瞧壮,精確定位到問題。

生產(chǎn)問題發(fā)現(xiàn)來源

客服報障
生產(chǎn)驗(yàn)證報障
運(yùn)維報警
多維數(shù)據(jù)(異常日志匙握、數(shù)據(jù)趨勢監(jiān)控)報警
測試環(huán)境驗(yàn)證報障

針對不同問題來源及問題場景咆槽,定位流程有細(xì)微差異。
如客服報障:可能存在客服大范圍報障圈纺,客服單客戶數(shù)據(jù)異常報障等罗晕。

總結(jié)歷史經(jīng)驗(yàn)如下:


生產(chǎn)異常的表征往往會多方面展現(xiàn):如服務(wù)宕機(jī)往往首先表現(xiàn)就是前端業(yè)務(wù)功能不可用,訪問前端提示異常(往往會觸發(fā)客服報障)赠堵;同時會有運(yùn)維健康監(jiān)測的報警;業(yè)務(wù)異常日志報警法褥;數(shù)據(jù)流量異常報警茫叭。

這些現(xiàn)象的出現(xiàn)可能同時或部分出現(xiàn),這些現(xiàn)象的出現(xiàn)往往能夠決定我們定位問題的手段半等。

如出現(xiàn)大范圍用戶前端入口訪問異常揍愁,檢測順序可以為:網(wǎng)絡(luò)配置(連通性)、web服務(wù)可用性杀饵、后端服務(wù)可用性酣藻、外部服務(wù)可用性块促、運(yùn)營配置、代碼邏輯異常。

快速進(jìn)行生產(chǎn)問題定位阐斜,統(tǒng)一出口的監(jiān)控平臺能夠給予我們極大的幫助。++構(gòu)建監(jiān)控平臺++则吟,不僅僅是某一個組織角色的問題疲酌,不但要基礎(chǔ)支撐組提供相關(guān)物理、中間件葡幸、基礎(chǔ)服務(wù)的實(shí)時動態(tài)監(jiān)測視圖數(shù)據(jù)最筒,也需要業(yè)務(wù)層面提供對應(yīng)的數(shù)據(jù)流量、系統(tǒng)異常視圖數(shù)據(jù)蔚叨。

給予完善的監(jiān)控平臺床蜘,就能夠構(gòu)建出系統(tǒng)的快速恢復(fù)機(jī)制辙培。根據(jù)歷史數(shù)據(jù)分析構(gòu)建指定的服務(wù)治理策略模型,并結(jié)合人工&機(jī)器處理邢锯;不斷迭代優(yōu)化扬蕊,逐步構(gòu)建一個匹配于當(dāng)前業(yè)務(wù)系統(tǒng)的系統(tǒng)治理平臺。

數(shù)據(jù)大盤設(shè)計

按照業(yè)務(wù)特性組織大盤分布視圖弹囚,主要可以分為兩個維度點(diǎn):趨勢數(shù)據(jù)厨相、多維聚合數(shù)據(jù)


趨勢數(shù)據(jù)

趨勢數(shù)據(jù):主要指一定周期內(nèi)(天/周/月)指定維度數(shù)據(jù)變化趨勢,通過對同比數(shù)據(jù)的觀察鸥鹉,能夠快速發(fā)現(xiàn)問題發(fā)生節(jié)點(diǎn)蛮穿,相對快速定位問題發(fā)生模塊,給問題定位提供快速支持毁渗。
如:每天24小時同比借款數(shù)践磅、賬戶開通數(shù)。

以生產(chǎn)運(yùn)營監(jiān)控為主的趨勢數(shù)據(jù)灸异,周期設(shè)置不宜太久府适,一般保持每小時數(shù)據(jù)統(tǒng)計。通過同比數(shù)據(jù)設(shè)置警戒值肺樟,設(shè)置20%波動曲率檐春。可選擇的觀測維度有:5分鐘么伯、15分鐘疟暖、30分鐘、1小時田柔、24小時俐巴、7天、15天硬爆、1個月欣舵、1季度、1年缀磕。
不同維度數(shù)據(jù)適用不同場景缘圈,常用作監(jiān)控報警類的,根據(jù)業(yè)務(wù)流量袜蚕,建議盡可肯能小的維度(過高會導(dǎo)致靈敏度降低)准验。

在實(shí)現(xiàn)數(shù)據(jù)大盤時,可以自己開發(fā)或選擇合適的開源或商業(yè)BI工具廷没,不同方案都有自己的優(yōu)勢和劣勢糊饱。
開源的可能存在支持不足,視圖和接口數(shù)據(jù)多樣性不滿足業(yè)務(wù)需求颠黎;
商業(yè)的視圖和接口豐富性能夠得到保障另锋,但可能存在成本問題滞项,且基于商業(yè)BI系統(tǒng)開發(fā)自己治理平臺,存在一定風(fēng)險夭坪。
自主開發(fā)數(shù)據(jù)平臺則需要一批專業(yè)人員進(jìn)行不短的時間進(jìn)行開發(fā)文判,可以根據(jù)實(shí)際需要不斷維護(hù)定制所需功能,但需要一定時間迭代來完成室梅。

多維聚合數(shù)據(jù)

多維聚合數(shù)據(jù):通過單人/單筆賬戶戏仓、交易數(shù)據(jù)的縱向挖掘聚合展示,展示單筆數(shù)據(jù)變遷過程亡鼠,通過對數(shù)據(jù)變遷分析赏殃,快速定位異常點(diǎn)。
如:賬戶開通業(yè)務(wù)流中涉及(實(shí)名间涵、認(rèn)證仁热、授信、賬戶)

聚合數(shù)據(jù)要求展示系統(tǒng)業(yè)務(wù)流轉(zhuǎn)中核心數(shù)據(jù)流轉(zhuǎn)變遷過程勾哩。設(shè)計時必須遵循的原則就是檢索條件必要性抗蠢,以用戶為維度的必須輸入用戶編號作為檢索條件,以交易為維度的必須要輸入源頭交易編號作為檢索條件思劳。應(yīng)避免在檢索結(jié)果包含多用戶/多交易數(shù)據(jù)迅矛,容易造成實(shí)現(xiàn)難度加大且結(jié)果不理想。

檢索條件建議:用戶編號潜叛、交易編號诬乞。
檢索結(jié)果分布建議:用戶信息、交易信息钠导、交易回退信息、邊緣系統(tǒng)聚合數(shù)據(jù)森瘪。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末牡属,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子扼睬,更是在濱河造成了極大的恐慌逮栅,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件窗宇,死亡現(xiàn)場離奇詭異措伐,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)军俊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進(jìn)店門侥加,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人粪躬,你說我怎么就攤上這事担败∥粞ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵提前,是天一觀的道長吗货。 經(jīng)常有香客問我,道長狈网,這世上最難降的妖魔是什么宙搬? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮拓哺,結(jié)果婚禮上勇垛,老公的妹妹穿的比我還像新娘。我一直安慰自己拓售,他們只是感情好窥摄,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著础淤,像睡著了一般崭放。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鸽凶,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天币砂,我揣著相機(jī)與錄音,去河邊找鬼玻侥。 笑死决摧,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的凑兰。 我是一名探鬼主播掌桩,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼姑食!你這毒婦竟也來了波岛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤音半,失蹤者是張志新(化名)和其女友劉穎则拷,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體曹鸠,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡煌茬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了彻桃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坛善。...
    茶點(diǎn)故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出浑吟,到底是詐尸還是另有隱情笙纤,我是刑警寧澤,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布组力,位于F島的核電站省容,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏燎字。R本人自食惡果不足惜腥椒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望候衍。 院中可真熱鬧笼蛛,春花似錦、人聲如沸蛉鹿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽妖异。三九已至惋戏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間他膳,已是汗流浹背响逢。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棕孙,地道東北人舔亭。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像蟀俊,于是被迫代替她去往敵國和親钦铺。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 目錄 ·大型網(wǎng)站軟件系統(tǒng)的特點(diǎn) ·大型網(wǎng)站架構(gòu)演化發(fā)展歷程 ·初始階段的網(wǎng)站架構(gòu) ·需求/解決問題 ·架構(gòu) ·應(yīng)用...
    zhyang0918閱讀 2,654評論 0 16
  • 我撿了只妖怪回家肢预。 他被我撿回來的時候還很狼狽矛洞,頂著一頭亂發(fā),穿著一身油膩得看不出本色的衣服误甚,抱著自己瘦弱的肩膀,...
    阿七不生氣_a156閱讀 559評論 1 5
  • 夏天過去了~今年畫的扇子湊到了第九把谱净,合了起來發(fā)一下~ 叢林深幾許窑邦,飛鳥不絕經(jīng)。 夏日綠意已惘然壕探,來日寒梅花更勝冈钦。...
    啊啦啦com閱讀 891評論 9 16
  • 0x00 概述 漏洞名稱:測試目錄 風(fēng)險等級:低 問題類型:信息泄露 0x01 漏洞描述 Web應(yīng)用程序在開發(fā)過程...
    TeamsSix閱讀 197評論 0 0
  • 感恩最近一直保持早睡早起的好習(xí)慣,感恩一早送大寶上學(xué)沒有下雨 感恩今天二寶一早同意讓爸爸送去上學(xué)李请,這樣我在最...
    倆寶的媽咪閱讀 160評論 0 2