自動化運維,讓你遠離背鍋俠

面對複雜的異構環境,如何及時全面地掌握網絡、服務器、數據庫、存儲、安全等各類設備的運行情況?

面對越來越複雜的業務、越來越多樣化的用戶需求、不斷擴展的IT應用,如何保障IT服務靈活便捷、安全穩定地運行?

IT運維應運而生。

隨着雲計算、大數據、物聯網、互聯網+、IAAS的不斷衝擊,信息化部門也在考慮如何實現高效率的運維,將繁瑣、重複工作簡單化、自動化,DevOps自動化運維就顯得尤爲重要。

DevOps故名思議就是Development和Operations的組合,是過程、方法和系統的統稱,主要是爲了把軟件開發、技術運營和質量保證進行有效的結合,從運維到管理。

運維,就是日常的運行維護,而DevOps是從制定計劃到運營終止全生命週期的管理,那麼DevOps自動化運維如何實現呢?

瞭解應用在全生命週期中每一個週期都需要什麼樣的工作、平臺、組織、人員進行匹配支撐,如敏捷管理、持續性的交付、IT服務管理等。

持續性交付是核心,持續性交付的起點是應用需求的形成,重點是應用的高效運行,持續的優化、改進、審查、測試、部署、運營,形成PDCA閉環維度。

傳統運維面臨的問題

傳統的IT運維是將數據中心中的網絡設備、服務器、數據庫、中間件、存儲、虛擬化、硬件等資源進行統一監控,當資源出現告警時,運維人員通過工具或者基於經驗進行排查,找出問題並加以解決。但是,隨着互聯網+時代的到來,移動互聯網、雲計算和大數據技術得到了廣泛應用,從而導致企業所管理的IT架構不斷擴大,服務器、虛擬化、存儲設備的數量越來越多,網絡也變得更加複雜,業務流程越來越繁瑣,傳統的運維管理也越來越力不從心。主要表現以下幾個方面:

wKiom1m4kSHAw4qFAAA99X0-XPk455.jpg-wh_50

IT環境異構:系統軟硬件種類繁多,導致運維人員運維監控壓力大,日常工作量繁重。

故障發生後,運維工程師花費大量精力排查問題,無法快速和準確的定位問題,治標不治本。

由於設備數量巨大,日常巡檢佔用大量時間,導致工作效率低下,事倍功半。

工作機制混亂,面對龐大的IT系統,缺乏有效、自動化的運維流程,缺乏有效的績效考覈依據。

缺少自動運維機制:IT部門人員過少,導致運維壓力大;由於誤操作,導致無法挽回的災難;大而全的系統,對運維人員技術能力要求越來越高。

系統內數據非常重要,如果遺漏備份,系統癱瘓/誤操作等出現時會導致無法估量的後果。

自動化運維爲你排憂解難

自動化運維,可實現日常設備監控、主動發現問題、自動分析定位、基於標準化流程工具規範化處理、通過自動化運維操作工具處理修復等功能,最終實現監管治自動化運維。

wKioL1m4j6LRx3CbAAP0WvURGH8309.png-wh_50

監控自動化

監控自動化是運維自動化的基礎,通過自動化監控平臺對各類IT資源(包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用、操作系統、虛擬化等)進行實時監控,出現故障後進行告警歸集並處理,解決同設備同指標同告警頻報問題。當然,監控自動化的範疇很廣,除了監控告警響應,系統也可從業務角度出發,根據業務系統運行情況,判斷業務系統健康度。

wKioL1m4j87xUERoAACVTAKtGHM764.jpg-wh_50

數據採集自動化

數據自動化採集是保障運維人員實時瞭解系統運行狀況的前提,系統支持單機DCS和分佈式DCS部署方式,以應對不同規模網絡架構;系統通過自定義採集策略,週期性採集,主動上報,通過DHS進行數據分析處理,並統一在系統上進行展示。


日常巡檢自動化

運維日常巡檢及定期備份是運維人員定期需要完成的工作,而這項日常操作耗時煩瑣,針對這一問題,運維管理系統可代替人工完成,從而將繁瑣的人工工作自動化,避免人爲操作的疏漏,大大提高運維效率。

運維服務管理系統通過系統配置,指定需要巡檢的設備、接口及每天的巡檢時間和次數,系統按照巡檢模板定時巡檢並生成巡檢報表發送到指定郵箱,無需人工巡檢填寫巡檢報告,讓運維人員不論身處何地,也能定時瞭解系統日常運行情況,減少了工程師標準化、重複的工作,化人工操作爲自動化過程,使工程師可以專注於其他更有價值工作。


設備配置比對自動化

運維服務系統ITM內置標準化的腳本,通過腳本執行,定期下載備份系統配置及文件。系統通過日常備份配置文件比對分析,將變化內容高亮顯示,讓運維人員一目瞭然哪些配置被修改過;當配置發生變化後,會第一時間在告警臺進行展示。當設備不可用時,通過快速恢復功能一鍵恢復。


故障定位自動化

運維服務管理系統ITM提供了一套智能化的故障排查處理機制,立足提高工程師處理效率,靈活的故障策略能適應各種各樣的IT變化,幫助工程師在海量的告警中,準確的定位故障、通過自動抓取設備快照,瞭解當時系統運行情況,快速定位故障,有效縮短排障時間,解決運維難題。


數據分析自動化

大數據時代,如何從海量的數據中提取有價值的數據,也是當今最熱門的話題。大數據分析平臺ITBA,通過針對ITM系統所監控的資源設備性能數據和其他業務系統運行日誌進行分析,掌握當前業務系統運行情況,瞭解性能、容量瓶頸問題,根據日常的運行情況及性能信息指標,綜合進行預測,防患於未然。


流程處理自動化

服務流程系統遵循ITIL標準,建設標準化、規範化的運維服務管理體系。運維服務管理平臺的建設遵循ITIL管理思想,通過流程與資產的無縫對接,建立資源運維規範化流程;通過流程化運維方式,讓每一次運維都有相應的記錄,可隨時查看運維歷史及運維記錄,包括排障記錄、變更記錄、服務記錄等,並且提供表單自定義和流程自定義功能,實現客戶運維管理標準化、規範化。在工單處理完後,一鍵轉化爲知識庫,提高工作效率。

wKioL1m4kDmTMZa-AABjTI2YRg0171.jpg-wh_50

故障處理自動化

大批量的系統每天會產生海量的告警,很多告警都屬於常規性告警,如磁盤空間不足,CPU、內存利用率過高等問題。這些常規性運維,工程師需要逐一去進行派單、恢復處理,但是面對成千上百的設備,工程師往往會力不從心。

服務流程管理系統可進行策略配置,當產生告警後,根據預先配置的策略,自動生成工單,不同的告警進行不同的工單、派單處理,有效地將服務檯和服務請求、事件問題、標準變更發佈流程整合,使運維服務過程有統一的任務優先級排序、跟蹤和評估 / 審批,運維人員只需要根據工單進行處理即可。


日常操作自動化

日常備份自動化

在運維過程中,除了日常巡檢,另外一個比較耗時的工作就是日常備份。在系統運行過程中,可能會出現一些不可抗拒的因素,比如地震、斷電等導致設備損壞,或者人爲的誤操作導致系統不可用等,爲了保證出現問題後快速恢復、確保數據完整和有效性,定期的備份就顯得尤爲重要。

運維自動化平臺系統內置WMI、Telnet、Ssh、Http等工具,通過編寫Shell、Python、Bat腳本,通過可視化流程編排設計器,將運維操作和被管資源相結合,通過定時批量備份數據,減少人工工作量。


系統優化自動化

針對常規問題,如一些服務器本身負載較大,佔用大量的資源導致系統長時間運行後非常緩慢,爲了保障系統的正常運行,運維人員每天要做大量的重複工作導致工作效率極低,而且有時候由於自己的操作失誤,導致關鍵數據丟失,帶來不可估量的後果。自動化運維繫統ITAM,通過內置Shell、Python、Bat腳本,以定時或者人工觸發的方式,實現定時優化系統、故障自動化處理、批量配置系統、關鍵服務啓停功能,構建企業自動化運維、從而提到運維效率,降低操作風險。


大批量配置自動化

運維人員在日常工作中,需要針對設備進行常規性配置,如創建用戶、增加磁盤空間、安裝程序補丁包等重複性工作。面對數以千計的設備,傳統運維方式下,工程師需要逐個登陸系統進行配置,不但效率低下而且極容易出錯。

自動化運維平臺ITAM通過編寫腳本,關聯被管設備,定時批量執行,可大大提高運維效率,保障了執行的準確性。


系統詳細記錄每臺設備的作業執行操作過程,用戶可通過WEB端動態查看作業執行過程、執行日誌,以及執行結果等信息,讓一切運維操作均有據可依、可查、可跟蹤。


自動化運維場景化

自動化運維是將運維服務系統、服務流程系統、大數據分析平臺、自動化管理系統進行有效結合,全面對數據中心資源設備進行監控,產生故障後自動派單進入ITSM系統進行故障處理,規範運維流程工作,再由ITBA對監控性能數據進行分析預判,掌握系統負載及性能數據,預測未來系統運行態勢。根據預測結果,編寫Shell、Python、Bat腳本。

通過定期執行腳本,優化系統性能、保障系統運行。

通過流程節點觸發,自動處理問題,徹底解放人工工作量。

批量修改配置及增加配置信息,提高工作效率。

總結:

自動化運維是一個大命題,隨着互聯網+、大數據、服務器虛擬化等技術的發展,網絡設備與服務器的運維管理正在發生很大的變化。通過這幾年對ITIL的實踐,各行業都有了很多的經驗。相信隨着時間的推移和互聯網化的發展,會有越來越多的企業在自動化運維方面有所創新。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章