每秒數萬筆的核心交易系統運維金融日誌智能運維實踐

每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
近年來,各商業銀行業務規模迅速增長,作爲底層的技術支撐,生產系統的集羣規模也越來越大,運維難度也逐步增加。
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐

1銀行應用運維現狀

經過大量調研發現大部分商業銀行儘管已實現了各業務系統軟硬件方面的全網監控,也實現了統一運維管理,但還是處於被動運維管理模式,對信息系統的健康程度瞭解不夠深入,也不能快速排查應用系統處理交易異常。
應用運維問題體現在以下三個方面
• 缺少對各業務應用交易的運行情況(交易量、成功率、平均響應時間)的監控,難以全面、準確、及時地掌握業務應用系統的運行情況;
• 無法自動發現應用拓撲關係和交易訪問路徑,並以此爲基礎實現故障應用系統的自動定位;
• 無法將操作系統、中間件、數據庫、存儲、網絡、環境動力等IT基礎設施專業事件與各應用系統的業務交易或系統交易事件關聯起來進行自動故障樹分析。
上述問題直接導致IT運維中出現專業事件處理量大、業務影響分析困難、故障根源定位慢、故障節點難以自動隔離恢復等問題。
因此,商業銀行需要以業務應用交易爲核心,升級整合傳統的IT運維監控系統,建立以全局監控、自助化查詢、快速處置爲一體的整體解決方案。而其中,將生產系統所產生的日誌進行集中歸集,並利用日誌進行監控和深度挖掘是最核心的環節。日誌並非只是單純的文本信息, 更是一筆數據財富,日誌中會寫入全局事件跟蹤號、事件性能數據、診斷信息、交易唯一標識、交易響應時間以及錯誤代碼等關鍵信息。通過實時、全面的採集和關聯日誌可以實現應用系統拓撲關係發現、交易事件關聯分析、異常監測診斷以及數據報告展示,讓運維管理人員直觀方便的掌握業務系統的性能和健康度。

![](https://s1.51cto.com/images/blog/201904/03/11614a1462b01e626a6f8db3aea67db6.jpg?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)

2應用日誌分析問題嚴峻

目前大部分中型以下商業銀行還停留在人工處理日誌層面,日誌分析時需要逐臺登錄服務器搜索相關日誌文件才能定位問題,工作量大,效率低,安全性差。
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐

普遍存在以下幾個痛點
日誌數據量大,產生速度很快,通常日增量都在GB甚至TB級別以上,給備份、存儲、審計、分析帶來巨大的挑戰。
日誌分散繁雜,通常散落在基礎設施各處,且格式衆多、複雜度高,給分析定位帶來很大困難,只有經驗豐富的管理員才能夠熟練掌握,侷限性大。
缺少關聯分析手段,只做事後分析利用,無法對問題進行更深層次的挖掘和分析。
日誌分析時效性低,面對海量日誌,銀行內部系統無法滿足實時分析要求,且自建能力有限。

![](https://s1.51cto.com/images/blog/201904/03/c16d32ea1b4eabbf79eaf518602ffff3.jpg?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)

3我們的解決方案

針對以上問題,東軟SaCa DataInsight日誌大數據平臺產品提供了日誌採集、預處理、存儲、查詢、分析、告警及可視化展現等一系列功能服務,支持系統全局監控、業務拓撲展現、交易日誌關聯、智能告警以及故障自愈等功能。需要特別說明的是,產品爲了滿足對海量日誌的實時採集、查詢及分析需求採用了分佈式部署架構,在技術實現上可以支持靈活地按需部署。數據預處理、查詢分析以及控制模塊可以按需的分佈在相同或者不同的服務器中,並且各模塊內也可以根據數據處理規模來橫向伸縮擴展。
根據案例實踐
在日增量2-3TB數據量級下爲滿足秒級查詢分析需求
給出如下部署架構建議
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
在海量日誌查詢分析方面,首先產品支持收集各類系統的日誌數據按照統一的標準進行加工處理,存儲。其次,通過平臺自定義開發的關聯引擎可以自動發現業務應用系統拓撲關係和交易訪問路徑,進行故障應用系統或故障應用節點的自動定位處理,更直觀的展現各系統的交易量、成功率、響應時間等交易指標。最後,通過業務流程查詢引擎,對比交易路徑或應用拓撲圖上不同應用系統的總量/分量交易指標的變化情況,將故障自動定位到某個應用系統甚至服務器節點,減少排除故障時間。

4方案應用價值

SaCa DataInsight通過分析日誌提供以下功能服務,完成對生產系統進行各維度的全天監控;同時,通過對歷史日誌的深度挖掘,可以幫助業務部門管理業務流向及配置、可以幫助商業×××自助解決日常工作中的問題、還可以幫助運維部門瞭解系統健康程度和故障原因,大大提高生產系統的整體運維效率。
日誌自助查詢
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
自助查詢功能提供給各分支機構遠程自助查詢,減少自己工作量,數據權限控制不同分支機構對數據的可見性。
業務拓撲展現
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
通過提前對錯誤日誌設定規則,大量報錯會告警,並迅速定位問題。
交易關聯瀑布圖
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
通過日誌關聯與自動計算,可以把分散的日誌按照交易爲單位進行自動串聯,並計算每個平臺的交易耗時,直觀展現業務處理時延。
主機遠程控制
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
遠程控制模塊可以通過頁面,去選擇執行的遠程命令,並直接查看執行結果;不需要值班人員熟悉命令執行的細節。
應用業務監控
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
通過對所有日誌的左右鍵進行提取,並進行業務關聯,可以自動監控不同平臺、節點、服務狀態,形成結果展現。
運維知識庫
每秒數萬筆的核心交易系統運維金融日誌智能運維實踐
把每次問題的解決方案沉澱到知識庫,在告警觸發時,直接提供相關知識庫鏈接,降低學習成本。更多內容可到https://platform.neusoft.com/allproducts/apm

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章