疫情影響下,嘉爲藍鯨如何助力企業IT運維?

新冠肺炎疫情爆發之後,嘉爲公司在完成內部防控工作的部署同時,心繫每一個客戶,時刻關注疫情對各大企業的業務影響,並積極配合客戶在防疫期間的相關運維工作要求。

以深圳某企業(以下簡稱SZ公司)爲例,早在2月2日之前,政府對各企業復工延遲計劃作出要求時,我們便在第一時間響應客戶需求,明確將按照SZ公司新型冠狀病毒防控工作方案的相關工作要求,全力配合做好系統運維遠程支持工作直至疫情解除,確保SZ公司業務系統穩定運行。

SZ公司是嘉爲集團合作最深配合最默契的客戶之一,也是嘉爲藍鯨最早的深度踐行客戶之一,基於嘉爲藍鯨自動化運維平臺,雙方開展了大量實踐和探索,取得了顯著成果。那麼在疫情影響下,嘉爲藍鯨是如何助力SZ公司IT運維的?


疫情對企業IT運維的影響

疫情影響下,所有企業IT運維不可避免地會受到各種影響,對於SZ公司可能會受到哪些方面的影響,簡單從以下幾個方面分析。


01 現場運維力量缺乏

爲了防止疫情蔓延,該公司首先響應政府號召並宣佈延遲復工,開放遠程辦公,以最小化的標準嚴格限制到場人員。因此,對於企業IT運維,現場運維力量的大幅減弱,導致類似系統健康性巡檢、業務需求響應、變更執行和故障應急等現場工作的響應及時率和完成度受到了較大影響。


02 系統安全可控性難度加大

SZ公司在2019年採取了一系列措施,例如:建立信息安全通報中心、定期開展系統漏洞掃描及整改等,加強企業信息安全管理,降低被***的風險,確保企業不會因安全事件導致信息泄露和財產損失。然而,隨着疫情爆發,受限於遠程限制,漏洞掃描和整改等工作的開展難度和效率低下將對系統安全性產生一定影響。


03 業務宕機風險增大

疫情影響下開展遠程辦公,針對故障的各個處理環節(例如:故障響應、故障處理和硬件維護等)將出現或多或少的延遲,對於業務系統來說,無疑增加了業務長時間宕機的風險。


04 重點專項工作延遲風險高

疫情影響下,無法保障重點工作溝通的有效性和時效性,因此,涉及資源申請、變更審批和實施等項目工作,將無法有效開展,很可能導致各類重點工作的進度延遲,從而對核心業務形成至關重要的影響。


疫情下企業對IT運維的普遍需求

即便影響因素受制於客觀條件較難短期克服,但是SZ公司數據中心仍然對於運維組提出了以下基本原則要求以保障業務的正常運行。


01 人員投入可以減少,但運維效率不能降低

如上所述,疫情影響下,現場運維人員投入的被動減少是必然的。那麼,在遠程運維背景下,保障運維效率最小程度的降低,甚至不降低,是企業對於IT運維的第一需求。


02 人員可以不在場,但系統安全必須始終在線

由信息安全的重要性所決定,防疫期間漏洞整改等工作必須保持較高的響應及時率和整改時效性。


03 運維可以遠程,但故障響應必須及時

業務系統的穩定運維是企業正常運作的必要前提,特別是對於涉及民生資源的SZ公司,承擔着重大的社會責任,因此,防疫期間對於系統故障的支持力度必須得到最大程度的保障。


04 復工可以延緩,但重點工作進度不能延遲

基於遠程辦公的背景,如何提升重點工作的溝通效率,保證項目資源申請、變更審批和實施等工作能夠高效開展,是IT運維需要重點解決的問題。


疫情下企業IT運維的重點工作內容

運維班組根據數據中心的要求,通過對本階段的必要工作梳理進行分類,並與嘉爲支撐團隊溝通相關工具和方法形成以下工作內容。


01 系統健康性巡檢

利用SZ公司遠程辦公工具和嘉爲藍鯨平臺遠程開展每天的巡檢工作,巡檢範圍涉及數據庫、中間件、操作系統、服務器、存儲和光纖交換機等多個核心領域和組件。


02 信息安全保障

根據SZ公司信息安全部門工作要求,藉助嘉爲藍鯨平臺遠程開展漏洞管理工作,涉及漏洞的全過程管控,整改範圍包括操作系統、數據庫和中間件等多個專業。


03 系統故障處理

主要分爲常見故障的遠程預處理和重大故障的現場處理。常見故障包括磁盤空間不足、CPU或內存使用率過高、物理設備磁盤故障等,可在收到提前預警下,利用嘉爲藍鯨平臺進行遠程預處理;重大故障包括數據庫故障、存儲故障和物理設備宕機等,一般需要到現場進行處理。


04 重點業務需求處理

重點業務需求包括但不限於以下:

  • 業務架構擴展,需要新出庫資源以支撐。

  • 業務數據激增,要求數據存儲擴容。

  • 業務運維中常見的用戶登錄授權,密碼重置等,需要後臺操作。

  • 業務IT配置管理數據庫信息維護等。


疫情下嘉爲如何助力企業IT運維

根據以上工作範圍的定義和梳理分類,嘉爲藍鯨服務團隊響應要求,通過嘉爲藍鯨平臺提供的一系列工具軟件和自助化流程配置輕鬆實現了SZ公司的高效運維。


01 嘉爲藍鯨自動化巡檢系統:提高系統健康性巡檢效率

藉助自動化巡檢系統的每日定時巡檢任務,每天只需要1名運維人員遠程查看巡檢結果彙總表,IDC設備及系統健康情況便一目瞭然,將巡檢問題提交至系統,反饋給相關專業進行預處理即可。


各類巡檢APP展示:

圖片1.png

自定義巡檢任務:

圖片2.png

巡檢結果彙總:

圖片3.png

圖片4.png


02 現場運維力量缺乏

通過嘉爲藍鯨漏洞全過程管理系統進行漏洞掃描,可以第一時間獲取漏洞清單、整改對象和受影響的業務清單,再借助補丁管理平臺,實現補丁一鍵修復,最後通過漏洞全過程管理平臺進行漏洞複覈,實現漏洞整改閉環,將漏洞整改的時間週期由以往的1~2周縮短至1~3天,極大提升整改時效性,使疫情下信息安全防護工作的遠程支撐效率不減。


嘉爲藍鯨漏洞全過程管理系統:

圖片5.png


圖片6.png


嘉爲藍鯨補丁更新APP:

圖片7.png


圖片8.png


03 嘉爲藍鯨統一作業平臺:高效處理系統故障

對於防疫期間的常見故障和變更,可通過嘉爲藍鯨作業平臺批量執行腳本或分發文件等功能能進行預處理,無需登錄任何服務器進行操作,提高系統故障處理效率的同時,也降低了人爲誤操作的機率,更爲安全高效地保障系統的穩定運行。

批量執行腳本:

圖片9.png

批量分發文件:

圖片10.png


04 嘉爲藍鯨資源自動化交付、基礎變更自動化工具:高效應對重點專項工作

重要業務資源自動化交付

防疫期間,針對重要業務資源出庫需求,可通過嘉爲藍鯨資源自動化交付平臺,實現虛擬機、中間件、數據庫、備份和監控等一整套資源的自動化快速交付。

圖片11.png

重要系統基礎變更自動化處理

針對重要業務存儲擴容需求和用戶密碼重置等需求,均可利用嘉爲藍鯨基礎變更自動化平臺實現將日常人工處理變更請求,由運維平臺自動執行處理,並在處理完成後進行閉環反饋。

圖片12.png


圖片13.png


05 基礎條件要求——CMDB建設

要想良好地實現以上4種自動化運維場景,不可缺少的是需要建設一套規劃完善的CMDB。對於SZ公司,嘉爲服務團隊爲該公司的CMDB做了詳細規劃和建設,針對業務IT配置管理數據庫信息維護需求,建立配置管理數據庫,對企業的IT資產進行統一管理,並聯動嘉爲藍鯨其他功能模塊,自動同步變更信息,爲其他系統和用戶提供可靠的數據源。


CMDB:

統一管理業務架構、主機、軟硬件等資產配置。

圖片11.png

配置管理門戶:

IT資產報表統計,一目瞭然。

圖片15.png


總結

SZ公司於2017年開始部署嘉爲藍鯨自動化運維平臺,並陸續上線了資源自動化交付、CMDB、自動化巡檢、補丁管理、安全基線管理、漏洞管控平臺和存儲監控等十幾個應用和功能模塊,極大地提升了IT數據中心的服務和運維效率,助力其自動化運維成熟度和管理體系持續處於行業領先地位。防疫期間,嘉爲藍鯨自動化運維平臺有效爲該客戶提供運維能量,助力客戶IT運維團隊高效開展工作,實現遠程安全運維。

對於廣大企業而言,隨着企業的快速發展,IT技術棧越來越多、IT團隊規模越來越大、運維場景個性化進一步增強、運維安全和敏捷性等對企業內部運維能力提出了更高的技術要求。除此之外,面臨本次重大疫情以及未來不可預測的重大影響因素,我們建議企業應提前考慮規劃統一運維平臺+自動化運維平臺以提升自身運維效率和應對風險的能力。


作者:趙江彬

其他優質文章

Linux | 文件的時間屬性

企業如何規劃DevOps落地與演進?

ZooKeeper | 安裝部署、應用場景、開發對接API

【銀行運維】落地平臺化管理,大步邁向銀行4.0

彈性(Flex)佈局的使用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章