近年來蚪燕,各商業(yè)銀行業(yè)務規(guī)模迅速增長屁药,作為底層的技術(shù)支撐征峦,生產(chǎn)系統(tǒng)的集群規(guī)模也越來越大,運維難度也逐步增加。
1
銀行應用運維現(xiàn)狀
經(jīng)過大量調(diào)研發(fā)現(xiàn)大部分商業(yè)銀行盡管已實現(xiàn)了各業(yè)務系統(tǒng)軟硬件方面的全網(wǎng)監(jiān)控呆贿,也實現(xiàn)了統(tǒng)一運維管理嚷兔,但還是處于被動運維管理模式,對信息系統(tǒng)的健康程度了解不夠深入做入,也不能快速排查應用系統(tǒng)處理交易異常冒晰。
應用運維問題體現(xiàn)在以下三個方面
缺少對各業(yè)務應用交易的運行情況(交易量、成功率竟块、平均響應時間)的監(jiān)控壶运,難以全面、準確浪秘、及時地掌握業(yè)務應用系統(tǒng)的運行情況蒋情;
無法自動發(fā)現(xiàn)應用拓撲關(guān)系和交易訪問路徑埠况,并以此為基礎實現(xiàn)故障應用系統(tǒng)的自動定位;
無法將操作系統(tǒng)棵癣、中間件辕翰、數(shù)據(jù)庫、存儲狈谊、網(wǎng)絡喜命、環(huán)境動力等IT基礎設施專業(yè)事件與各應用系統(tǒng)的業(yè)務交易或系統(tǒng)交易事件關(guān)聯(lián)起來進行自動故障樹分析。
上述問題直接導致IT運維中出現(xiàn)專業(yè)事件處理量大的畴、業(yè)務影響分析困難渊抄、故障根源定位慢、故障節(jié)點難以自動隔離恢復等問題丧裁。
因此护桦,商業(yè)銀行需要以業(yè)務應用交易為核心,升級整合傳統(tǒng)的IT運維監(jiān)控系統(tǒng)煎娇,建立以全局監(jiān)控二庵、自助化查詢、快速處置為一體的整體解決方案缓呛。而其中催享,將生產(chǎn)系統(tǒng)所產(chǎn)生的日志進行集中歸集,并利用日志進行監(jiān)控和深度挖掘是最核心的環(huán)節(jié)哟绊。日志并非只是單純的文本信息因妙, 更是一筆數(shù)據(jù)財富,日志中會寫入全局事件跟蹤號票髓、事件性能數(shù)據(jù)攀涵、診斷信息、交易唯一標識洽沟、交易響應時間以及錯誤代碼等關(guān)鍵信息以故。通過實時、全面的采集和關(guān)聯(lián)日志可以實現(xiàn)應用系統(tǒng)拓撲關(guān)系發(fā)現(xiàn)裆操、交易事件關(guān)聯(lián)分析怒详、異常監(jiān)測診斷以及數(shù)據(jù)報告展示,讓運維管理人員直觀方便的掌握業(yè)務系統(tǒng)的性能和健康度踪区。
2
應用日志分析問題嚴峻
目前大部分中型以下商業(yè)銀行還停留在人工處理日志層面昆烁,日志分析時需要逐臺登錄服務器搜索相關(guān)日志文件才能定位問題,工作量大朽缴,效率低善玫,安全性差。
普遍存在以下幾個痛點:
日志數(shù)據(jù)量大,產(chǎn)生速度很快
通常日增量都在GB甚至TB級別以上茅郎,給備份蜗元、存儲、審計系冗、分析帶來巨大的挑戰(zhàn)奕扣。
日志分散繁雜
通常散落在基礎設施各處,且格式眾多掌敬、復雜度高惯豆,給分析定位帶來很大困難,只有經(jīng)驗豐富的管理員才能夠熟練掌握奔害,局限性大楷兽。
缺少關(guān)聯(lián)分析手段
只做事后分析利用,無法對問題進行更深層次的挖掘和分析华临。
日志分析時效性低
面對海量日志芯杀,銀行內(nèi)部系統(tǒng)無法滿足實時分析要求,且自建能力有限雅潭。
3
我們的解決方案
針對以上問題揭厚,東軟SaCa DataInsight日志大數(shù)據(jù)平臺產(chǎn)品提供了日志采集、預處理扶供、存儲筛圆、查詢、分析椿浓、告警及可視化展現(xiàn)等一系列功能服務太援,支持系統(tǒng)全局監(jiān)控、業(yè)務拓撲展現(xiàn)扳碍、交易日志關(guān)聯(lián)粉寞、智能告警以及故障自愈等功能。需要特別說明的是左腔,產(chǎn)品為了滿足對海量日志的實時采集、查詢及分析需求采用了分布式部署架構(gòu)捅儒,在技術(shù)實現(xiàn)上可以支持靈活地按需部署液样。數(shù)據(jù)預處理、查詢分析以及控制模塊可以按需的分布在相同或者不同的服務器中巧还,并且各模塊內(nèi)也可以根據(jù)數(shù)據(jù)處理規(guī)模來橫向伸縮擴展鞭莽。
根據(jù)案例實踐
在日增量2-3TB數(shù)據(jù)量級下為滿足秒級查詢分析需求
給出如下部署架構(gòu)建議
在海量日志查詢分析方面,首先產(chǎn)品支持收集各類系統(tǒng)的日志數(shù)據(jù)按照統(tǒng)一的標準進行加工處理麸祷,存儲澎怒。其次,通過平臺自定義開發(fā)的關(guān)聯(lián)引擎可以自動發(fā)現(xiàn)業(yè)務應用系統(tǒng)拓撲關(guān)系和交易訪問路徑阶牍,進行故障應用系統(tǒng)或故障應用節(jié)點的自動定位處理喷面,更直觀的展現(xiàn)各系統(tǒng)的交易量星瘾、成功率、響應時間等交易指標惧辈。最后琳状,通過業(yè)務流程查詢引擎,對比交易路徑或應用拓撲圖上不同應用系統(tǒng)的總量/分量交易指標的變化情況盒齿,將故障自動定位到某個應用系統(tǒng)甚至服務器節(jié)點念逞,減少排除故障時間。
4
方案應用價值
SaCa DataInsight通過分析日志提供以下功能服務边翁,完成對生產(chǎn)系統(tǒng)進行各維度的全天監(jiān)控翎承;同時,通過對歷史日志的深度挖掘符匾,可以幫助業(yè)務部門管理業(yè)務流向及配置叨咖、可以幫助商業(yè)銀行客戶自助解決日常工作中的問題、還可以幫助運維部門了解系統(tǒng)健康程度和故障原因待讳,大大提高生產(chǎn)系統(tǒng)的整體運維效率芒澜。
日志自助查詢
自助查詢功能提供給各分支機構(gòu)遠程自助查詢,減少自己工作量创淡,數(shù)據(jù)權(quán)限控制不同分支機構(gòu)對數(shù)據(jù)的可見性痴晦。
業(yè)務拓撲展現(xiàn)
通過提前對錯誤日志設定規(guī)則,大量報錯會告警琳彩,并迅速定位問題誊酌。
交易關(guān)聯(lián)瀑布圖
通過日志關(guān)聯(lián)與自動計算,可以把分散的日志按照交易為單位進行自動串聯(lián)露乏,并計算每個平臺的交易耗時碧浊,直觀展現(xiàn)業(yè)務處理時延。
主機遠程控制
遠程控制模塊可以通過頁面瘟仿,去選擇執(zhí)行的遠程命令箱锐,并直接查看執(zhí)行結(jié)果;不需要值班人員熟悉命令執(zhí)行的細節(jié)劳较。
應用業(yè)務監(jiān)控
通過對所有日志的左右鍵進行提取驹止,并進行業(yè)務關(guān)聯(lián),可以自動監(jiān)控不同平臺观蜗、節(jié)點臊恋、服務狀態(tài),形成結(jié)果展現(xiàn)墓捻。
運維知識庫
把每次問題的解決方案沉淀到知識庫抖仅,在告警觸發(fā)時,直接提供相關(guān)知識庫鏈接,降低學習成本撤卢。
相關(guān)產(chǎn)品