近年來制妄,各商業(yè)銀行業(yè)務(wù)規(guī)模迅速增長涌萤,作為底層的技術(shù)支撐,生產(chǎn)系統(tǒng)的集群規(guī)模也越來越大,運(yùn)維難度也逐步增加继找。
銀行應(yīng)用運(yùn)維現(xiàn)狀
經(jīng)過大量調(diào)研發(fā)現(xiàn)大部分商業(yè)銀行盡管已實(shí)現(xiàn)了各業(yè)務(wù)系統(tǒng)軟硬件方面的全網(wǎng)監(jiān)控遂跟,也實(shí)現(xiàn)了統(tǒng)一運(yùn)維管理,但還是處于被動(dòng)運(yùn)維管理模式,對信息系統(tǒng)的健康程度了解不夠深入幻锁,也不能快速排查應(yīng)用系統(tǒng)處理交易異常凯亮。
應(yīng)用運(yùn)維問題體現(xiàn)在以下三個(gè)方面
缺少對各業(yè)務(wù)應(yīng)用交易的運(yùn)行情況(交易量、成功率哄尔、平均響應(yīng)時(shí)間)的監(jiān)控假消,難以全面、準(zhǔn)確岭接、及時(shí)地掌握業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行情況富拗;
無法自動(dòng)發(fā)現(xiàn)應(yīng)用拓?fù)潢P(guān)系和交易訪問路徑,并以此為基礎(chǔ)實(shí)現(xiàn)故障應(yīng)用系統(tǒng)的自動(dòng)定位鸣戴;
無法將操作系統(tǒng)啃沪、中間件、數(shù)據(jù)庫葵擎、存儲谅阿、網(wǎng)絡(luò)、環(huán)境動(dòng)力等IT基礎(chǔ)設(shè)施專業(yè)事件與各應(yīng)用系統(tǒng)的業(yè)務(wù)交易或系統(tǒng)交易事件關(guān)聯(lián)起來進(jìn)行自動(dòng)故障樹分析酬滤。
上述問題直接導(dǎo)致IT運(yùn)維中出現(xiàn)專業(yè)事件處理量大签餐、業(yè)務(wù)影響分析困難、故障根源定位慢盯串、故障節(jié)點(diǎn)難以自動(dòng)隔離恢復(fù)等問題氯檐。
因此,商業(yè)銀行需要以業(yè)務(wù)應(yīng)用交易為核心体捏,升級整合傳統(tǒng)的IT運(yùn)維監(jiān)控系統(tǒng)冠摄,建立以全局監(jiān)控、自助化查詢几缭、快速處置為一體的整體解決方案河泳。而其中,將生產(chǎn)系統(tǒng)所產(chǎn)生的日志進(jìn)行集中歸集年栓,并利用日志進(jìn)行監(jiān)控和深度挖掘是最核心的環(huán)節(jié)拆挥。日志并非只是單純的文本信息, 更是一筆數(shù)據(jù)財(cái)富某抓,日志中會寫入全局事件跟蹤號纸兔、事件性能數(shù)據(jù)、診斷信息否副、交易唯一標(biāo)識汉矿、交易響應(yīng)時(shí)間以及錯(cuò)誤代碼等關(guān)鍵信息。通過實(shí)時(shí)备禀、全面的采集和關(guān)聯(lián)日志可以實(shí)現(xiàn)應(yīng)用系統(tǒng)拓?fù)潢P(guān)系發(fā)現(xiàn)洲拇、交易事件關(guān)聯(lián)分析奈揍、異常監(jiān)測診斷以及數(shù)據(jù)報(bào)告展示,讓運(yùn)維管理人員直觀方便的掌握業(yè)務(wù)系統(tǒng)的性能和健康度赋续。
應(yīng)用日志分析問題嚴(yán)峻
目前大部分中型以下商業(yè)銀行還停留在人工處理日志層面打月,日志分析時(shí)需要逐臺登錄服務(wù)器搜索相關(guān)日志文件才能定位問題,工作量大蚕捉,效率低,安全性差柴淘。
普遍存在以下幾個(gè)痛點(diǎn):
1. 日志數(shù)據(jù)量大迫淹,產(chǎn)生速度很快
通常日增量都在GB甚至TB級別以上,給備份为严、存儲敛熬、審計(jì)、分析帶來巨大的挑戰(zhàn)第股。
2. 日志分散繁雜
通常散落在基礎(chǔ)設(shè)施各處应民,且格式眾多、復(fù)雜度高夕吻,給分析定位帶來很大困難诲锹,只有經(jīng)驗(yàn)豐富的管理員才能夠熟練掌握,局限性大涉馅。
3. 缺少關(guān)聯(lián)分析手段
只做事后分析利用归园,無法對問題進(jìn)行更深層次的挖掘和分析。
4. 日志分析時(shí)效性低
面對海量日志稚矿,銀行內(nèi)部系統(tǒng)無法滿足實(shí)時(shí)分析要求庸诱,且自建能力有限。
我們的解決方案
針對以上問題晤揣,東軟SaCa DataInsight日志大數(shù)據(jù)平臺產(chǎn)品提供了日志采集桥爽、預(yù)處理、存儲昧识、查詢钠四、分析、告警及可視化展現(xiàn)等一系列功能服務(wù)滞诺,支持系統(tǒng)全局監(jiān)控形导、業(yè)務(wù)拓?fù)湔宫F(xiàn)、交易日志關(guān)聯(lián)习霹、智能告警以及故障自愈等功能朵耕。需要特別說明的是,產(chǎn)品為了滿足對海量日志的實(shí)時(shí)采集淋叶、查詢及分析需求采用了分布式部署架構(gòu)阎曹,在技術(shù)實(shí)現(xiàn)上可以支持靈活地按需部署。數(shù)據(jù)預(yù)處理、查詢分析以及控制模塊可以按需的分布在相同或者不同的服務(wù)器中处嫌,并且各模塊內(nèi)也可以根據(jù)數(shù)據(jù)處理規(guī)模來橫向伸縮擴(kuò)展栅贴。
根據(jù)案例實(shí)踐
在日增量2-3TB數(shù)據(jù)量級下為滿足秒級查詢分析需求
給出如下部署架構(gòu)建議
在海量日志查詢分析方面,首先產(chǎn)品支持收集各類系統(tǒng)的日志數(shù)據(jù)按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行加工處理熏迹,存儲檐薯。其次,通過平臺自定義開發(fā)的關(guān)聯(lián)引擎可以自動(dòng)發(fā)現(xiàn)業(yè)務(wù)應(yīng)用系統(tǒng)拓?fù)潢P(guān)系和交易訪問路徑注暗,進(jìn)行故障應(yīng)用系統(tǒng)或故障應(yīng)用節(jié)點(diǎn)的自動(dòng)定位處理坛缕,更直觀的展現(xiàn)各系統(tǒng)的交易量、成功率捆昏、響應(yīng)時(shí)間等交易指標(biāo)赚楚。最后,通過業(yè)務(wù)流程查詢引擎骗卜,對比交易路徑或應(yīng)用拓?fù)鋱D上不同應(yīng)用系統(tǒng)的總量/分量交易指標(biāo)的變化情況宠页,將故障自動(dòng)定位到某個(gè)應(yīng)用系統(tǒng)甚至服務(wù)器節(jié)點(diǎn),減少排除故障時(shí)間寇仓。
方案應(yīng)用價(jià)值
SaCa DataInsight通過分析日志提供以下功能服務(wù)举户,完成對生產(chǎn)系統(tǒng)進(jìn)行各維度的全天監(jiān)控;同時(shí)遍烦,通過對歷史日志的深度挖掘敛摘,可以幫助業(yè)務(wù)部門管理業(yè)務(wù)流向及配置、可以幫助商業(yè)銀行客戶自助解決日常工作中的問題乳愉、還可以幫助運(yùn)維部門了解系統(tǒng)健康程度和故障原因兄淫,大大提高生產(chǎn)系統(tǒng)的整體運(yùn)維效率。
日志自助查詢
自助查詢功能提供給各分支機(jī)構(gòu)遠(yuǎn)程自助查詢蔓姚,減少自己工作量捕虽,數(shù)據(jù)權(quán)限控制不同分支機(jī)構(gòu)對數(shù)據(jù)的可見性。
業(yè)務(wù)拓?fù)湔宫F(xiàn)
通過提前對錯(cuò)誤日志設(shè)定規(guī)則坡脐,大量報(bào)錯(cuò)會告警泄私,并迅速定位問題。
交易關(guān)聯(lián)瀑布圖
通過日志關(guān)聯(lián)與自動(dòng)計(jì)算备闲,可以把分散的日志按照交易為單位進(jìn)行自動(dòng)串聯(lián)晌端,并計(jì)算每個(gè)平臺的交易耗時(shí),直觀展現(xiàn)業(yè)務(wù)處理時(shí)延恬砂。
主機(jī)遠(yuǎn)程控制
遠(yuǎn)程控制模塊可以通過頁面咧纠,去選擇執(zhí)行的遠(yuǎn)程命令,并直接查看執(zhí)行結(jié)果泻骤;不需要值班人員熟悉命令執(zhí)行的細(xì)節(jié)漆羔。
應(yīng)用業(yè)務(wù)監(jiān)控
通過對所有日志的左右鍵進(jìn)行提取梧奢,并進(jìn)行業(yè)務(wù)關(guān)聯(lián),可以自動(dòng)監(jiān)控不同平臺演痒、節(jié)點(diǎn)亲轨、服務(wù)狀態(tài),形成結(jié)果展現(xiàn)鸟顺。
運(yùn)維知識庫
把每次問題的解決方案沉淀到知識庫惦蚊,在告警觸發(fā)時(shí),直接提供相關(guān)知識庫鏈接讯嫂,降低學(xué)習(xí)成本养筒。
相關(guān)產(chǎn)品