文章概要
- 生產(chǎn)問題分類
- 生產(chǎn)問題定位路徑
- 生產(chǎn)問題發(fā)現(xiàn)來源
- 數(shù)據(jù)大盤設(shè)計
生產(chǎn)問題分類
隨著業(yè)務(wù)的發(fā)展,由于內(nèi)部或外部的原因骄蝇,系統(tǒng)運(yùn)行迭代過程中總是會出現(xiàn)大大小小生產(chǎn)問題巡扇。
在進(jìn)行生產(chǎn)問題處理時會遇到各種各樣的問題,有時在人員流動性較大團(tuán)隊進(jìn)行老系統(tǒng)維護(hù)時讼油,一個隱藏的比較深的問題往往要花費(fèi)極大的時間進(jìn)行定位;或者在遇到大范圍生產(chǎn)服務(wù)不可用時呢簸,如何快速定位恢復(fù)系統(tǒng)問題矮台,保證系統(tǒng)穩(wěn)定性,作為一個質(zhì)控人員和開發(fā)經(jīng)理必須具備的技能根时。
按照生產(chǎn)問題發(fā)生的原因大致可分為兩種:服務(wù)穩(wěn)定性瘦赫、數(shù)據(jù)一致性
服務(wù)穩(wěn)定性
服務(wù)請求阻塞
服務(wù)請求丟失(中止)
服務(wù)假死
服務(wù)資源消費(fèi)異常
外源性服務(wù)阻礙
服務(wù)穩(wěn)定性問題是相對隱形的,常規(guī)邏輯驗(yàn)證一般無法發(fā)現(xiàn)蛤迎。內(nèi)部或外部服務(wù)受到網(wǎng)絡(luò)(網(wǎng)絡(luò)波動)确虱、流量波動(暴增)、物理資源不足等影響替裆,導(dǎo)致偶發(fā)性或間歇性服務(wù)理能力處下降校辩、丟失。
數(shù)據(jù)一致性
常規(guī)邏輯異常導(dǎo)致數(shù)據(jù)處理錯誤
偶發(fā)性(隱形)數(shù)據(jù)異常
外源性數(shù)據(jù)異常
數(shù)據(jù)一致性問題相對較容易暴露和定位扎唾,常見的都是由于運(yùn)營配置調(diào)整召川、代碼實(shí)現(xiàn)、產(chǎn)品業(yè)務(wù)設(shè)計問題導(dǎo)致胸遇。外源性數(shù)據(jù)問題的出現(xiàn)荧呐,除了外部數(shù)據(jù)不嚴(yán)謹(jǐn)外,系統(tǒng)對外接口過濾不足也是應(yīng)引起重視的問題纸镊。
生產(chǎn)問題定位路徑
服務(wù)可用性(直接與間接)
服務(wù)邏輯問題
數(shù)據(jù)溯源(包含代碼)
配置確認(rèn)
運(yùn)營日志
在實(shí)際定位生產(chǎn)問題的過程中倍阐,如果沒有大盤數(shù)據(jù)提供支撐,更多時候是根據(jù)經(jīng)驗(yàn)逗威,簡單觀察生產(chǎn)聚合日志峰搪,臨時查詢代碼、臨時編寫SQL凯旭,單點(diǎn)式定位問題概耻。這種情況下使套,若經(jīng)驗(yàn)不足,對相關(guān)代碼不熟悉鞠柄,則很難快速準(zhǔn)確定位到問題侦高,通常需要很長時間才能定位到問題,而且準(zhǔn)確定存疑厌杜。
通過合理的數(shù)據(jù)趨勢奉呛、縱向數(shù)據(jù)面板,結(jié)合報警信息夯尽,跟蹤錯誤日志堆棧信息涉及代碼瞧壮,精確定位到問題。
生產(chǎn)問題發(fā)現(xiàn)來源
客服報障
生產(chǎn)驗(yàn)證報障
運(yùn)維報警
多維數(shù)據(jù)(異常日志匙握、數(shù)據(jù)趨勢監(jiān)控)報警
測試環(huán)境驗(yàn)證報障
針對不同問題來源及問題場景咆槽,定位流程有細(xì)微差異。
如客服報障:可能存在客服大范圍報障圈纺,客服單客戶數(shù)據(jù)異常報障等罗晕。
總結(jié)歷史經(jīng)驗(yàn)如下:
生產(chǎn)異常的表征往往會多方面展現(xiàn):如服務(wù)宕機(jī)往往首先表現(xiàn)就是前端業(yè)務(wù)功能不可用,訪問前端提示異常(往往會觸發(fā)客服報障)赠堵;同時會有運(yùn)維健康監(jiān)測的報警;業(yè)務(wù)異常日志報警法褥;數(shù)據(jù)流量異常報警茫叭。
這些現(xiàn)象的出現(xiàn)可能同時或部分出現(xiàn),這些現(xiàn)象的出現(xiàn)往往能夠決定我們定位問題的手段半等。
如出現(xiàn)大范圍用戶前端入口訪問異常揍愁,檢測順序可以為:網(wǎng)絡(luò)配置(連通性)、web服務(wù)可用性杀饵、后端服務(wù)可用性酣藻、外部服務(wù)可用性块促、運(yùn)營配置、代碼邏輯異常。
快速進(jìn)行生產(chǎn)問題定位阐斜,統(tǒng)一出口的監(jiān)控平臺能夠給予我們極大的幫助。++構(gòu)建監(jiān)控平臺++则吟,不僅僅是某一個組織角色的問題疲酌,不但要基礎(chǔ)支撐組提供相關(guān)物理、中間件葡幸、基礎(chǔ)服務(wù)的實(shí)時動態(tài)監(jiān)測視圖數(shù)據(jù)最筒,也需要業(yè)務(wù)層面提供對應(yīng)的數(shù)據(jù)流量、系統(tǒng)異常視圖數(shù)據(jù)蔚叨。
給予完善的監(jiān)控平臺床蜘,就能夠構(gòu)建出系統(tǒng)的快速恢復(fù)機(jī)制辙培。根據(jù)歷史數(shù)據(jù)分析構(gòu)建指定的服務(wù)治理策略模型,并結(jié)合人工&機(jī)器處理邢锯;不斷迭代優(yōu)化扬蕊,逐步構(gòu)建一個匹配于當(dāng)前業(yè)務(wù)系統(tǒng)的系統(tǒng)治理平臺。
數(shù)據(jù)大盤設(shè)計
按照業(yè)務(wù)特性組織大盤分布視圖弹囚,主要可以分為兩個維度點(diǎn):趨勢數(shù)據(jù)厨相、多維聚合數(shù)據(jù)
趨勢數(shù)據(jù)
趨勢數(shù)據(jù):主要指一定周期內(nèi)(天/周/月)指定維度數(shù)據(jù)變化趨勢,通過對同比數(shù)據(jù)的觀察鸥鹉,能夠快速發(fā)現(xiàn)問題發(fā)生節(jié)點(diǎn)蛮穿,相對快速定位問題發(fā)生模塊,給問題定位提供快速支持毁渗。
如:每天24小時同比借款數(shù)践磅、賬戶開通數(shù)。
以生產(chǎn)運(yùn)營監(jiān)控為主的趨勢數(shù)據(jù)灸异,周期設(shè)置不宜太久府适,一般保持每小時數(shù)據(jù)統(tǒng)計。通過同比數(shù)據(jù)設(shè)置警戒值肺樟,設(shè)置20%波動曲率檐春。可選擇的觀測維度有:5分鐘么伯、15分鐘疟暖、30分鐘、1小時田柔、24小時俐巴、7天、15天硬爆、1個月欣舵、1季度、1年缀磕。
不同維度數(shù)據(jù)適用不同場景缘圈,常用作監(jiān)控報警類的,根據(jù)業(yè)務(wù)流量袜蚕,建議盡可肯能小的維度(過高會導(dǎo)致靈敏度降低)准验。
在實(shí)現(xiàn)數(shù)據(jù)大盤時,可以自己開發(fā)或選擇合適的開源或商業(yè)BI工具廷没,不同方案都有自己的優(yōu)勢和劣勢糊饱。
開源的可能存在支持不足,視圖和接口數(shù)據(jù)多樣性不滿足業(yè)務(wù)需求颠黎;
商業(yè)的視圖和接口豐富性能夠得到保障另锋,但可能存在成本問題滞项,且基于商業(yè)BI系統(tǒng)開發(fā)自己治理平臺,存在一定風(fēng)險夭坪。
自主開發(fā)數(shù)據(jù)平臺則需要一批專業(yè)人員進(jìn)行不短的時間進(jìn)行開發(fā)文判,可以根據(jù)實(shí)際需要不斷維護(hù)定制所需功能,但需要一定時間迭代來完成室梅。
多維聚合數(shù)據(jù)
多維聚合數(shù)據(jù):通過單人/單筆賬戶戏仓、交易數(shù)據(jù)的縱向挖掘聚合展示,展示單筆數(shù)據(jù)變遷過程亡鼠,通過對數(shù)據(jù)變遷分析赏殃,快速定位異常點(diǎn)。
如:賬戶開通業(yè)務(wù)流中涉及(實(shí)名间涵、認(rèn)證仁热、授信、賬戶)
聚合數(shù)據(jù)要求展示系統(tǒng)業(yè)務(wù)流轉(zhuǎn)中核心數(shù)據(jù)流轉(zhuǎn)變遷過程勾哩。設(shè)計時必須遵循的原則就是檢索條件必要性抗蠢,以用戶為維度的必須輸入用戶編號作為檢索條件,以交易為維度的必須要輸入源頭交易編號作為檢索條件思劳。應(yīng)避免在檢索結(jié)果包含多用戶/多交易數(shù)據(jù)迅矛,容易造成實(shí)現(xiàn)難度加大且結(jié)果不理想。
檢索條件建議:用戶編號潜叛、交易編號诬乞。
檢索結(jié)果分布建議:用戶信息、交易信息钠导、交易回退信息、邊緣系統(tǒng)聚合數(shù)據(jù)森瘪。