一名城商行多年從業者:數據中心運維轉型困局與對策思考

【導讀】中小型城商行在科技人員配置和資金投入時一般都是重開發輕運維,運維管理粗放,這就不可避免地暴露了很多運維的問題和痛點,本文嘗試分析並提出對策。
【作者】謝茜茜,某城商行信息科技部系統運維組骨幹成員,十餘年系統運維從業經驗,主要負責全行主機、存儲、操作系統、雲管平臺等基礎軟硬件運維工作。統籌組織全行業務連續性演練技術實施工作,推動本行演練水平不斷走向新臺階。推進基礎軟硬件架構轉型,負責“兩地三中心”災備體系建設項目,已建成雙活同城災備中心,和應用級異地災備中心。

一、銀行數據中心運維的發展和演進

近年來,隨着移動互聯網、大數據、雲計算、AI技術等金融科技業態逐步向傳統金融領域滲透,銀行業務系統越來越龐大,系統之間的關聯越來越複雜,金融科技的不斷髮展一方面爲傳統銀行業的跨越升級插上了騰飛的翅膀,另一方面也給數據中心運維帶來了極大挑戰。業務的高速增長始終離不開運維的強有力支撐,作爲一名在銀行數據中心繫統運維體系從業十來年的IT工作者,歷經了銀行數據中心從部件級運維到一體化發展的各個階段,也看到了數據中心的內涵從單一數據存儲場所向智慧運營不斷演進。

(一)單一數據存儲階段

在單一數據存儲階段,數據中心的運維重點是服務器、存儲和網絡,主要承擔的功能是數據存儲和管理,集中存儲了銀行的業務數據。處於此階段的數據中心功能比較單一,整體可用性低,業務連續性要求不高,僅僅便於數據的集中存放和管理,面向單套業務系統的存儲和應用,運維管理粗放,資源臺帳不清,運維人員時刻處於“火線”邊緣。

(二)數據集成管理階段

數據集成管理階段是數據中心運維管理的轉型階段,此時數據中心組織專門的人員進行集中維護,注重運維效率,爲業務系統提供有效支撐。有些做得比較好的數據中心已經開始集成CMDB,自動化集成ITSM流程,通過雲服務實現自動化的服務交付,對系統維護上升到了管理的高度,從事中干預、事後處理慢慢過渡到事前預防。業務連續性要求較高,IT系統的可用性已經作爲部門KPI列入年度考覈,數據中心要求有較高的穩定性和可靠性。

(三)智慧運營階段

處於智慧運營階段的數據中心,從注重運維效率轉變爲更加註重運維質量,業務與科技深度融合,業務系統對數據中心的運維要求已不僅僅是支撐,而是提供安全、持續、穩定、有效的科技服務,此階段的數據中心已經演進成了金融服務提供中心,服務流程趨於規範化、標準化、統一化,並通過信息技術實現自動化管理。數據中心集成、管理和維護了各種資源,從技術運維轉向了技術運營,實現基礎設施和服務實時交付,保證計算資源價值最大化。數據中心高可用性和業務連續性要求高,重要信息系統應用級災備覆蓋率達到100%,且具備有效的異地數據級災備,災備接管時間爲分鐘級。

二、城商行運維的痛點分析

中小型城商行受制於資產規模、科技投入、科技人才匱乏等因素,在科技人員配置和資金投入時一般都是重開發輕運維,運維管理粗放,這就不可避免地暴露了很多運維的問題和痛點。

(一)運維制度不規範

中小型城商行處於運維發展的初級階段,運維制度、操作流程、應急預案、災難恢復計劃書等制度性文件制定之後就束之高閣,沒有及時根據實際情況進行修訂更新,使得運維工作無章可循,運維操作做不到規範化、標準化。運維制度不規範的數據中心,人人都有一套運維標準,同樣的事情不同人處理都存在差異,各崗位職責邊界界定不清,崗位之間協同性差,做事互相推諉,甚至怕擔責任少做少錯,緊急問題得不到有效處置,從而運維事故頻發,帶來極大的安全隱患。

(二)運維流程不合理

如果制度是“心臟”,那流程就是“血液”,它貫穿整個工作範疇,引導運維工作,界定具體的管理職責,運維流程的有效性和可操作性直接影響了運維質量和運維效率。數據中心需要制定切合自身的、實用的流程,缺乏有效流程管理的數據中心,故障響應時間慢,故障定界定位難,故障處理缺乏統一有序步調,問題跟蹤方式自成一派。缺乏流程指引就擺脫不了“煙囪式”運維,或“救火式”運維,每位運維人員都是無頭蒼蠅一般的“救火隊員”,增加了人爲操作風險。

如今大多數中小型城商行的數據中心都部署了各類運維支撐工具或平臺,比如ITSM、自動監控平臺、堡壘機、日誌管理平臺、災備切換平臺等,但大多數運維場景下,這些工具平臺各自爲政,沒有串聯形成體系,相互之間缺乏有效的流程進行編排和管理,流程和工具的銜接存在斷層,協同調用依賴人工進行,增加了運維投入但卻沒有簡化運維。

(三)運維技術水平低

在實際操作層,技術是運維的骨骼,強硬的技術實力是運維體系的底座支撐。近年來,中小型城商行業務迅猛發展,基礎設施快速膨脹增加了運維管理的複雜度,業務系統對IT基礎設施提出了更高的運維服務要求。多設備、多廠家、多產品導致運維複雜度攀升,爲達到高效運維,就必須利用技術手段爲不同技術路線的系統環境提供統一的服務接口,整合事件處理、變更管理、服務請求、配置管理等多項流程,將流程和操作一體化,同時還需要熟悉多平臺、多業務、多工具的複合型運維人才。

但現實情況是,中小型城商行在運維投入上捉襟見肘,大多數運維手段還停留在人工階段,自動化運維平臺沒有充分發揮應有的效能,還需過多的人工干預;在人才聘用方面,低於行業平均水平的薪資無法留住高技能人才,人員管理不規範、晉升通道不清晰、行業地位低,造成運維人員變動大,維護人員技能較低。

(四)應急管理不高效

銀行業務具有較高的實時性和穩定性要求,一些面向客戶、涉及賬務處理且時效性要求較高的業務處理類、渠道類和涉及客戶風險等業務的管理類信息系統已長期處於嚴格的監管之下,若這些重要系統發生非計劃內中斷,高效的應急管理顯得尤爲重要。受限於自身原因,中小型城商行的應急管理體系建設還不夠全面,沒有形成自上而下的合力,產生了許多突出的問題。

1、風險防範意識不高

中小型城商行主要關注主營業務發展,普遍缺乏信息系統風險防範意識,從上到下對信息系統的應急管理都不夠重視,容易滋生信息系統重大安全事件,嚴重威脅銀行的正常生產經營,造成聲譽風險。

2、災備體系不清晰

應急管理的一個重要組成部分就是災備管理,中小型城商行災備建設的主要目的,是爲了進行災備演練從而應對監管檢查,缺乏對災備體系的統籌思考和總體架構設計,這將導致災備系統架構不清晰,延展性差,災備資源只能在演練時使用,正常生產時間段得不到合理利用。

3、系統應急預案不完善

應急預案可用性不強,是中小型城商行的通病。大多數應急預案流於形式,組織架構不清晰,職責分工不明確,可執行性不強;有些應急預案只專注與操作細節,缺乏總體規劃和統籌安排;經過了數次真實環境下的應急演練之後,沒有及時總結經驗教訓,同步更新應急預案。

三、城商行運維轉型的思考和對策

鑑於以上痛點分析,中小型城商行要實現運維轉型,必須要從根本上打破困局。首先從思想上統一認識,從管理層開始自上而下認可運維工作的重要性;然後制定並及時維護相關規章制度和操作流程,規範運維操作人員行爲,降低操作風險;最後纔是最近提得比較多的,利用技術手段建設集中整合運維平臺,實現運行、監控、變更、應急等流程一體化、自動化、智能化,達到智慧運營的目的。具體的思考和對策如下:

(一)戰略層面——管理層關注

大部分中小型城商行均沒有配備專職CIO,信息科技部在銀行高級管理層眼裏僅僅是一個巨大的“成本中心”,不會產生實際效益,科技的重要性並沒有滲透至管理層。隨着銀行業務的快速發展,信息科技風險以及由此帶來的衍生風險並不亞於系統性金融風險,監管部門對銀行信息科技的監管也日趨嚴格。若高級管理層可以從戰略層面重視信息科技,將業務與科技深度融合,關注科技體制健康有序發展,科技賦能業務,組建訓練有素的科技團隊,就能有效規避各類生產運行風險,助力業務系統持續穩定運行。數據中心是業務系統的總後方,科技部領導也應重視數據中心運維管理,爲數據中心運維提供動能和驅動力。

除了要重視運維,管理層也應該爲數據中心運維提供切實可行的指導思想,主要表現在以下五個方面:一是標準化,要求完善制度制定和修訂,一切工作按制度執行,有章可循,在操作上嚴格要求規範化、標準化。二是自動化,進一步提高監控、配置、作業調度等工具使用,提升運維自動化水平,降低人員操作失誤率和風險。三是集約化,深入推進“大運行”,並統籌考慮數據中心運維一體化管理工作。四是自主化,加強人員培養和崗位技能考覈,對關鍵系統、關鍵崗位逐步實現自主運維。五是精細化,在運維工作的各個方面,不斷量化,力求用數字說話,加大量化考覈力度。

(二)戰術層面——做合規的事

以戰略規劃爲指導思想,戰術層面需做到數據中心即應用,在轉型過程中逐步將數據中心運維流程合理合規化,實行運維的“全生命週期”管理,實現運維體系自身的價值。主要表現爲:一是提質,數據中心制定服務化,標準化的運維流程,主動性預測預防,最小化的應用中斷,減少系統故障率,提升業務系統的用戶體驗度。二是增收,構建應用差異化計費體系,體現運維體系管道能力,加快商業變現增加收益。三是增效,通過自動化設計提升運維效率、集約化設計提升數據中心整體資源利用率和複用率,增加CPU算力負載和網絡負載效率。四是降本,機器不是來取代人,而是將寶貴的人力成本投入到高價值領域,通過自主化運維提升人員素質,加速人才轉型,降低綜合成本。

(三)實操層面——正確地做事

運維過程中出現的問題中,人爲操作問題和流程設計問題各佔40%,技術問題佔20%。因此,在實操層面,如何正確地做事,需要從運維人員、運維流程和運維技術三方面進行討論。

1、運維人員

運維人員包括行內運維人員和運維外包人員,人員組織架構是核心,並且不斷動態調整。從依賴廠商到自主可控,從標準化到腳本化,從半自動化到自動化,不管如何調整,最終方向都是要培養自己的運維力量,做到自主運維。具體需要做到分工明確、權責分明、及時響應。運維人員要有責任,有擔當,提高自身技術能力,不過分依賴外包,不惹事,也不怕事。

2、運維流程

首先,運維工作中的每一個步驟都要有流程、有審批、可監控、可追溯,與工作相關的流程和規定,一定要經常地,反覆地修訂、調整,牢記於心;其次,充分利用流程,理清崗位職責的邊界,完善標準化流程,對部門能提供的變更能力做嚴格的梳理;最後,一定要嚴格遵守流程,流程正確+結果正確纔是正確,流程錯誤+結果正確仍然是錯誤,是態度問題;流程正確+結果錯誤是可以原諒的,最多算能力問題。要建立流程來應對“沒有流程”的場景,並且嚴格遵守。

3、運維技術

運維技術就是運維工具,是各個廠家最熱衷於討論的主題,正如筆者前面所提,運維技術稍遜於運維人員和運維流程,在運維管理中處於比較重要的地位。良好的技術手段可以集成現有的分散流程,使得人員工作更加高效、更易於培訓和控制,還可以減少手工重複性操作的成本,提升對操作的控制性。

各廠家五花八門的運維技術歸結到一點,就是通過統一管理實現數據中心工具(技術)、流程和制度間創新性融合,構建統一的運維管理技術平臺,完成設備選型、規劃、上架、故障處置、變更、調優、回收全生命週期管理,從人防到技防,從粗放式運維到精細化運維。

四、小結

綜上所述筆者認爲,中小型城商行要實現運維轉型,爲各業務系統提供強有力的基礎支撐,首先要成立統一運維組織,制定統一運維組織架構和調度體系,實現運維團隊統一、有序;其次制定統一的運維制度和流程,確定運維操作安全可控;再次是搭建統一運維管理技術平臺,對接其他管理工具,實現數據中心全生命週期管理;最後就能形成統一的對外服務水平,面向業務部門交付合格的“科技服務產品”,保證科技服務質量,達到科技賦能業務發展的最終目標。

【轉發】https://www.talkwithtrend.com/Article/260307

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章