今天聊案例之前捞慌,我們先來(lái)聊另外一個(gè)話題:“黑匣子”昌妹。
沒(méi)錯(cuò)甘凭,就是飛機(jī)的“黑匣子”稀拐。黑匣子是記載飛行數(shù)據(jù)和駕駛艙通話的設(shè)備,它可以記載飛機(jī)停止作業(yè)前25小時(shí)的飛行數(shù)據(jù)以及30分鐘到2小時(shí)不等的通訊錄音丹弱。
世界上所有的空難發(fā)生原因都是經(jīng)過(guò)黑匣子分析出來(lái)的德撬,埃塞俄比亞航空墜機(jī)事件,黑匣子的數(shù)據(jù)目前已在法國(guó)被下載躲胳,用于研究此次墜機(jī)事件的成因蜓洪。
因而它就成了空難事故的見(jiàn)證和“前車之鑒”,黑匣子雖然在平常不起眼坯苹,可是卻是飛機(jī)上一個(gè)非常重要的部件隆檀,也是飛機(jī)出事后唯一重要的部件。
在互聯(lián)網(wǎng)領(lǐng)域也有和“黑匣子”一樣粹湃,看起來(lái)不起眼恐仑,但是卻非常重要的一種數(shù)據(jù)。
網(wǎng)絡(luò)設(shè)備为鳄、系統(tǒng)及服務(wù)程序等裳仆,在運(yùn)作時(shí)都會(huì)產(chǎn)生一種叫?log?的事件記錄;每一行日志都記載著日期济赎、時(shí)間鉴逞、使用者及動(dòng)作等相關(guān)操作的描述。
和黑匣子一樣司训,通過(guò)對(duì)日志數(shù)據(jù)的分析构捡,我們可以對(duì)系統(tǒng)設(shè)備進(jìn)行故障定位、了解APP和電商網(wǎng)站上的用戶行為習(xí)慣和消費(fèi)偏好壳猜、對(duì)員工的IT操作行為進(jìn)行內(nèi)部審計(jì)勾徽,像之前程序員離職為了泄憤刪除公司寶貴數(shù)據(jù)的行為,可以進(jìn)行溯源查詢...
日志數(shù)據(jù)價(jià)值巨大统扳,而且不同于只能做記錄的黑匣子一樣喘帚,日志數(shù)據(jù)可以進(jìn)行實(shí)時(shí)分析畅姊,及時(shí)止損,故障預(yù)測(cè)等保障整體業(yè)務(wù)穩(wěn)定運(yùn)行吹由。
云南農(nóng)信×云日志EasyLog共同打造日志運(yùn)維數(shù)據(jù)分析平臺(tái)
云南省農(nóng)村信用社(以下簡(jiǎn)稱云南農(nóng)信)若未,目前該農(nóng)信社已經(jīng)穩(wěn)居全省金融機(jī)構(gòu)首位,營(yíng)業(yè)網(wǎng)點(diǎn)達(dá)到2335個(gè)倾鲫,自助設(shè)備有13800余臺(tái)粗合,同時(shí)也有不斷推進(jìn)ATM機(jī)具、pos機(jī)乌昔、自助警銀亭隙疚,惠農(nóng)支付服務(wù)店等等自助渠道,讓客戶隨時(shí)隨地享受金融化服務(wù)磕道。
隨著業(yè)務(wù)系統(tǒng)的迅速發(fā)展供屉,極大地提升省聯(lián)社業(yè)務(wù)運(yùn)營(yíng)能力的同時(shí),本身的復(fù)雜性也大大增加溺蕉,系統(tǒng)產(chǎn)生的事件及問(wèn)題不斷增多伶丐,各項(xiàng)事件和問(wèn)題的都存在很強(qiáng)的關(guān)聯(lián)性、依賴性疯特。
但是各系統(tǒng)數(shù)據(jù)孤島的狀態(tài)直接導(dǎo)致了運(yùn)維數(shù)據(jù)難以關(guān)聯(lián)分析撵割,拉長(zhǎng)了解決問(wèn)題的時(shí)間周期,對(duì)云南農(nóng)信自身的運(yùn)維能力帶來(lái)新的挑戰(zhàn)辙芍。
2016年9月,中國(guó)銀監(jiān)會(huì)印發(fā)《銀行業(yè)金融機(jī)構(gòu)全面風(fēng)險(xiǎn)管理指引》指出:
第四十三條?銀行業(yè)金融機(jī)構(gòu)應(yīng)當(dāng)建立與業(yè)務(wù)規(guī)模羹与、風(fēng)險(xiǎn)狀況等相匹配的信息科技基礎(chǔ)設(shè)施故硅。
第四十四條?銀行業(yè)金融機(jī)構(gòu)應(yīng)當(dāng)建立健全數(shù)據(jù)質(zhì)量控制機(jī)制,積累真實(shí)纵搁、準(zhǔn)確吃衅、連續(xù)、完整的內(nèi)部和外部數(shù)據(jù)腾誉,用于風(fēng)險(xiǎn)識(shí)別徘层、計(jì)量、評(píng)估利职、監(jiān)測(cè)趣效、報(bào)告,以及資本和流動(dòng)性充足情況的評(píng)估猪贪。
在這樣的背景下跷敬,云南農(nóng)信經(jīng)過(guò)了長(zhǎng)期的考察和商討,最終選擇了為多家知名企業(yè)搭建運(yùn)維數(shù)據(jù)分析平臺(tái)的智能運(yùn)維專家——云日志EasyLog團(tuán)隊(duì)热押。
從客戶的實(shí)際情況出發(fā)西傀,云掣日志團(tuán)隊(duì)為客戶構(gòu)建了完整的日志平臺(tái)建設(shè)方案斤寇,并一起打造運(yùn)維數(shù)據(jù)分析平臺(tái)。
1. 方案設(shè)計(jì)
在與云南農(nóng)信深入的溝通和交流中拥褂,我們發(fā)現(xiàn)當(dāng)前的運(yùn)維建設(shè)還是比較傳統(tǒng)的:主要以IT資源(包括硬件娘锁、軟件和網(wǎng)絡(luò)設(shè)備等)的管理為核心,資源的信息非常完備饺鹃,但是對(duì)于資源上面支撐的業(yè)務(wù)應(yīng)用運(yùn)行狀況的采集和分析相對(duì)缺乏莫秆。
在銀行的業(yè)務(wù)應(yīng)用系統(tǒng)中,大量的交易流水尤慰、業(yè)務(wù)流水和交易日志中包含了對(duì)于業(yè)務(wù)運(yùn)行狀況最細(xì)節(jié)的描述馏锡,如果將這些數(shù)據(jù)收集起來(lái),合理地加以處理和分析伟端,就能實(shí)時(shí)杯道、準(zhǔn)確地反映當(dāng)前業(yè)務(wù)執(zhí)行狀況。同時(shí)责蝠,將該業(yè)務(wù)涉及的IT資源使用狀態(tài)也一并收集党巾,并進(jìn)行關(guān)聯(lián)分析,從而真正了解 IT 資源如何對(duì)業(yè)務(wù)做出貢獻(xiàn)霜医, 并能迅速地根據(jù)業(yè)務(wù)問(wèn)題定位 IT 資源問(wèn)題齿拂。
根據(jù)上述深入的調(diào)研收獲,云日志團(tuán)隊(duì)提出了6個(gè)建設(shè)目標(biāo)肴敛,希望幫助該金融機(jī)構(gòu)搭建自己的集中化運(yùn)維數(shù)據(jù)分析平臺(tái):
支持多源數(shù)據(jù)采集的日志數(shù)據(jù)統(tǒng)一管理中心:整合數(shù)據(jù)署海,建設(shè)統(tǒng)一采集管理平臺(tái),進(jìn)行數(shù)據(jù)采集和管理医男,包括監(jiān)控系統(tǒng)數(shù)(例如網(wǎng)絡(luò)鏡像數(shù)據(jù)砸狞、Tivoli數(shù)據(jù)等)、日志數(shù)據(jù)镀梭、數(shù)據(jù)庫(kù)數(shù)據(jù)等刀森。
基于流式計(jì)算的數(shù)據(jù)處理分析平臺(tái):云日志平臺(tái)自帶高效數(shù)據(jù)分析能力,挖掘數(shù)據(jù)中有效信息進(jìn)行關(guān)聯(lián)分析报账。
數(shù)據(jù)可視化:通過(guò)可視化大屏研底,讓用戶可以實(shí)時(shí)知悉數(shù)據(jù)動(dòng)態(tài)變化,提高整體運(yùn)維速度和質(zhì)量透罢。
智能報(bào)警機(jī)制:通過(guò)對(duì)預(yù)警閾值自定義榜晦,實(shí)現(xiàn)圖形、短信羽圃、微信等多種方式預(yù)警芽隆,快速響應(yīng)。
可擴(kuò)展、易于管理:運(yùn)維數(shù)據(jù)分析平臺(tái)應(yīng)具備高效胚吁、可擴(kuò)展牙躺、易于管理、維護(hù)等特性腕扶。
節(jié)省運(yùn)營(yíng)成本:通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)的實(shí)時(shí)監(jiān)控管理孽拷,降低業(yè)務(wù)運(yùn)營(yíng)成本,提高業(yè)務(wù)運(yùn)維效率半抱,達(dá)到自動(dòng)化運(yùn)維效果脓恕。
整個(gè)運(yùn)維數(shù)據(jù)分析平臺(tái)建設(shè)的核心思想在于通過(guò)實(shí)時(shí)采集業(yè)務(wù)運(yùn)行數(shù)據(jù)(如客戶交易流水、業(yè)務(wù)執(zhí)行流水窿侈、日志等)炼幔,以及實(shí)時(shí)系統(tǒng)運(yùn)行數(shù)據(jù)(包括應(yīng)用服務(wù)器、中間件史简、數(shù)據(jù)庫(kù)和主機(jī)等)乃秀,然后通過(guò)一定的數(shù)據(jù)模型將這些數(shù)據(jù)關(guān)聯(lián)起來(lái),以業(yè)務(wù)的角度動(dòng)態(tài)展示圆兵,并使用一系列算法進(jìn)行在線和離線分析跺讯,并使系統(tǒng)根據(jù)分析結(jié)果進(jìn)行自動(dòng)化處理,從而達(dá)到將企業(yè)業(yè)務(wù)運(yùn)行狀況和IT資源協(xié)同監(jiān)控和管理的目的殉农。
從圖中我們可以看到整個(gè)系統(tǒng)工作的邏輯過(guò)程刀脏。
首先是數(shù)據(jù)采集服務(wù)器從業(yè)務(wù)系統(tǒng)和其對(duì)應(yīng)的IT資源中,實(shí)時(shí)獲取相應(yīng)的運(yùn)行狀態(tài)數(shù)據(jù)超凳,經(jīng)過(guò)預(yù)處理之后愈污,向兩個(gè)方向發(fā)送:
一個(gè)方向是監(jiān)控分析服務(wù)器,在其中對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理轮傍,主要是報(bào)表引擎對(duì)數(shù)據(jù)進(jìn)行格式化之后钙畔,產(chǎn)生動(dòng)態(tài)報(bào)表,業(yè)務(wù)規(guī)則引擎判斷數(shù)據(jù)是否具有某種特點(diǎn)從而激活對(duì)應(yīng)的業(yè)務(wù)規(guī)則金麸;
另一個(gè)方向是將這些原始數(shù)據(jù)存儲(chǔ)在適合流式數(shù)據(jù)的數(shù)據(jù)庫(kù)中,并結(jié)合相應(yīng)的管理數(shù)據(jù)簿盅,由數(shù)據(jù)分析引擎進(jìn)行更為全面和復(fù)雜的數(shù)據(jù)分析挥下。系統(tǒng)提供一個(gè) web 應(yīng)用界面,使得監(jiān)控人員桨醋、管理人員和數(shù)據(jù)分析人員能夠通過(guò)標(biāo)準(zhǔn)的IE 瀏覽器訪問(wèn)應(yīng)用棚瘟。
2. 方案效果
及時(shí)掌握業(yè)務(wù)運(yùn)轉(zhuǎn)狀況,避免誤操作
通過(guò)實(shí)時(shí)動(dòng)態(tài)展示業(yè)務(wù)的運(yùn)行狀況和關(guān)鍵信息喜最,幫助管理人員及時(shí)掌握當(dāng)前業(yè)務(wù)運(yùn)行狀態(tài)偎蘸,觀察業(yè)務(wù)運(yùn)行的變化趨勢(shì),并快速判斷業(yè)務(wù)是否正常,做好提前應(yīng)對(duì)措施迷雪。
?IT運(yùn)行狀況可視化
直觀地展現(xiàn)為實(shí)現(xiàn)某個(gè)業(yè)務(wù)功能/能力限书,IT資源以何種方式運(yùn)轉(zhuǎn)。通過(guò)以拓?fù)鋱D展現(xiàn)業(yè)務(wù)服務(wù)章咧、應(yīng)用和底層IT系統(tǒng)構(gòu)架部件之間的動(dòng)態(tài)關(guān)系倦西,增進(jìn)對(duì)各種IT 元素的掌控和理解,并及時(shí)發(fā)現(xiàn)業(yè)務(wù)瓶頸赁严。
?從業(yè)務(wù)角度管理IT資源
幫助IT部門實(shí)時(shí)了解扰柠、掌控業(yè)務(wù)部門對(duì)IT服務(wù)的使用體驗(yàn),方便IT部門根據(jù)業(yè)務(wù)影響和 SLA(Service Level Agreement)來(lái)對(duì)IT服務(wù)進(jìn)行管理疼约,并及時(shí)進(jìn)行 IT 資源的優(yōu)化配置卤档。
加快問(wèn)題解決
主動(dòng)地幫助你在第一時(shí)間發(fā)現(xiàn)問(wèn)題,以便在問(wèn)題對(duì)用戶造成不利影響之前程剥,及時(shí)得到隔離劝枣、診斷和修復(fù),把它們對(duì)業(yè)務(wù)的干擾降到最低倡缠。同時(shí)支持自動(dòng)處理能力哨免,提高管理人員效率的同時(shí)降低人為操作的風(fēng)險(xiǎn)。
實(shí)現(xiàn)業(yè)務(wù)-服務(wù)-資源相互依賴關(guān)系的深入分析
通過(guò)系統(tǒng)內(nèi)部的依賴關(guān)系昙沦,結(jié)合業(yè)務(wù)和IT 資源等大數(shù)據(jù)琢唾,挖掘內(nèi)部的相互關(guān)系,深入分析業(yè)務(wù)問(wèn)題的根源盾饮,從而實(shí)現(xiàn)IT 和業(yè)務(wù)的全面融合采桃。
3、客戶體驗(yàn)
通過(guò)為IT 運(yùn)營(yíng)部門提供可以全面了解業(yè)務(wù)/IT運(yùn)形狀況的儀表板和數(shù)據(jù)可視化大屏丘损,幫助用戶主動(dòng)根據(jù)業(yè)務(wù)影響對(duì)IT服務(wù)進(jìn)行管理普办。
例如,儀表板通過(guò)顏色來(lái)顯示業(yè)務(wù)/IT資源的健康狀況和繁忙層度徘钥,當(dāng)某個(gè)業(yè)務(wù)出現(xiàn)了問(wèn)題衔蹲,其狀態(tài)就會(huì)顯示紅色,對(duì)應(yīng)的健康度指標(biāo)就會(huì)指向相應(yīng)的區(qū)間呈础。
大屏數(shù)據(jù)指標(biāo):現(xiàn)金流向歼郭、交易情況措近、轉(zhuǎn)賬情況批幌、交易金額翎猛、響應(yīng)速度、成功率臼节、ATM機(jī)交易排名撬陵、信貸監(jiān)控
可以在一個(gè)窗口中觀察到該業(yè)務(wù)相關(guān)的IT資源的狀況珊皿,如果對(duì)哪個(gè)部分感到疑慮,就可以立即點(diǎn)擊該資源向下逐層鉆取巨税,最終發(fā)現(xiàn)問(wèn)題蟋定,然后及時(shí)地進(jìn)行修復(fù),以免問(wèn)題進(jìn)一步惡化垢夹,而造成服務(wù)中斷溢吻。
整個(gè)運(yùn)維數(shù)據(jù)的集中,尤其是對(duì)日志的整合處理果元,把以前無(wú)序雜亂的日志整合解析促王,形成完整的交易事件,解決了業(yè)務(wù)排障的大問(wèn)題而晒,通過(guò)平臺(tái)提供的搜索功能蝇狼,業(yè)務(wù)排障從以前的幾個(gè)小時(shí)縮短到幾分鐘。
以前由于主機(jī)資源的限制倡怎,主機(jī)上只能保留最近交易日志迅耘,其他日志備份到帶庫(kù)。給后續(xù)查詢帶來(lái)很大麻煩监署,如需要恢復(fù)環(huán)境準(zhǔn)備颤专,恢復(fù)效率低,查詢多日的需要恢復(fù)多次钠乏,同時(shí)數(shù)據(jù)量大栖秕,導(dǎo)致恢復(fù)時(shí)間長(zhǎng),限制有了大數(shù)據(jù)存儲(chǔ)平臺(tái)晓避,日志可以長(zhǎng)期保留簇捍,滿足了對(duì)柜員操作的審計(jì)和對(duì)業(yè)務(wù)分析的回溯。
后續(xù)俏拱,云掣日志團(tuán)隊(duì)將會(huì)為云南農(nóng)信進(jìn)一步提供智能運(yùn)維服務(wù)暑塑,保障金融業(yè)務(wù)的高效運(yùn)行和IT運(yùn)維的智能化進(jìn)程。