別一口一句大數據，話說你真的懂運維大數據？

前言

關於運維大數據，業界已經有不少言論，但往往是衆說紛紜，甚者是”管中窺豹“，尚無對運維大數據的一個全面見解。今天，本文就基於自己在運維大數據從業崗位上積累的經驗，向大家系統地闡釋一下個人對運維大數據的認識，供大家參考。

一、運維大數據產生的背景現狀

隨着IT運維架構的日趨複雜化，傳統的IT運維管理方式更多關注的是對資源故障預警的時效性、監控指標種類的全面性、運維流程執行的規範性等，據瞭解，現階段許多企業已借助相應的自動化運維工具來滿足日常運維管理需要，且各個工具收集的運行數據和日誌記錄量每月呈TB級以上的增長趨勢，然而現實的情況是，這些工具日常使用到的歷史數據還不到10%，多數僅用於週末或月末的統計報表。歸其原因，一方面，傳統的自動化工具均以輕量級架構爲主，其無法支撐T級以上的海量數據分析處理和並行計算，特別是龐大的日誌、性能和告警等數據；另一方面，許多自動化工具爲保證其查詢統計效率往往會對較長的歷史數據採用一些壓縮策略而丟棄一部分，讓很多有用的運維數據無法爲未來管理發揮作用。

所以，當前已經有不少企業開始思考，如何利用大數據技術分析處理日益累積的各自動化工具產生的運維數據、各業務系統產生的日誌數據，對其進行運維挖掘預測，從而改進當前的工作方式，以支撐業務更好地運轉。

二、運維大數據的獲取

要想用大數據技術挖掘運維數據的價值，數據的收集無疑是關鍵。針對目前各個企業採用的自動化運維管理工具參差不齊，那市場上能夠對接不同自動化工具的運維大數據分析平臺似乎已變成了”剛需“。數據的收集固然重要，但並不意味着需要分析自動化運維工具產生的所有數據，更主要是着重分析一些實時變化的運行監控數據和服務過程數據。從運維監控層面來講，一般包括設備性能數據、閾值告警數據、應用日誌數據等。

設備性能數據： IT運維工具根據實際的運維管理需求，主動輪巡收集的網絡設備、服務器、存儲、虛擬機、數據庫和中間件等IT基礎設施的運行指標數據。

閾值告警數據：IT運維工具對監控的設備性能數據超過指標閾值而產生的報警類數據。

應用日誌數據：IT設備或應用程序自身產生的操作記錄數據，例如Syslog，Trap等。

運維大數據分析工具採用對歷史運維數據構建的機器自動化學習模型，其算法雖然對抓取的運維數據量和時間範圍沒有明確的要求和限制，但爲了儘量保證結果的準確性，往往是抓取的運維數據量越大、時間範圍越長，分析的結果纔會更加準確真實。

三、如何分析？對運維管理帶來什麼應用價值？

關於運維大數據分析技術的方法，從監控大數據分析維度，歸納總結無外乎兩類分析是最常見和最核心的，一個是數據相關性分析，另一個是數據週期性分析。

l 相關性分析（同一時間不同維度）——用於跨業務系統、跨軟硬件設備、跨自動化工具等產生的多個指標之間的內在關聯性，主要用於運維故障根源挖掘和發現潛在原因。

方法應用：告警根源挖掘

不知道大家有沒有聽說過沃爾瑪”啤酒+尿不溼“大數據相關性分析經典案例？我們先姑且不考慮這個故事的真實性，相信聽過的人都能體會到這個銷售故事的精妙之處。原本看似風馬牛不相及的兩個事物，經過數據分析卻發現有着“驚人”的聯繫。同樣，我們在研究運維大數據分析方法的過程中，發現此分析方法能夠幫助運維管理人員有效地找到告警信息發生的根源。

怎麼理解呢？不妨來看個例子。

A服務器和B服務器在業務上相鏈接。A服務器的Tomcat，因CPU佔用高，告警了；B服務器的Oracle死鎖數增長，產生了報警。結果，用大數據相關性分析技術分析歷史的運維告警數據卻發現這兩個看似毫無聯繫的指標同時告警的概率居然高達90%，更讓人驚訝的是，在進一步的相關性挖掘後又發現：往常的告警信息與A服務器Tomcat的CPU同時告警的指標居然還有C交換機的某端口流量和A服務器的URL響應時間，而機率分別爲85%和80%。這樣，運維人員便可利用運維大數據技術不斷實時學習分析的特性，根據這個相關性概率挖掘出告警產生的根源指標問題，進而不斷豐富運維關係庫、知識庫，大大節省了人工排查的人力、物力、財力，也從根本上解決潛在問題、消除安全隱患。

l 週期性分析（同一維度不同時間）——用於同指標性能、同故障告警、同日志記錄等按週期發生的規律性，主要用於時序挖掘分析和反覆事務挖掘。

方法應用：指標基線預測

對於這個分析方法，業界很多學者都持觀望態度；當然，也有一些算法比較先進的IT運維服務商的運維大數據分析平臺利用這一方法衍生出了一些運維大數據應用。比較突出的，就是做指標基線預測，利用大數據自動化學習業務運行規律，生成指標動態預警基線。這時，運維人員可以根據基線進行實時預警，擺脫“經驗式”的故障告警模式，提高運維的準確性！

同樣，也舉個例子說明：

之前在和運營商，比如移動和聯通的客戶打交道的過程中就發現，因爲像過年廣大用戶搶紅包等特殊需求，運營商業務量的高峯期主要出現在節假日期間。此種情況下，運維人員如何來保障業務高峯期整個IT體系的穩定呢？他們的做法一般是根據業務部門告知的業務量上漲預估值來判斷IT性能增長的百分比。換言之，預估今年春節業務上漲量可能達到50%，那IT運維部門就會通過添加服務器、集羣節點等整體配置來提升50%的IT性能，以保障業務高峯期的IT系統的承載力！很顯然，這種“拍腦袋”式的IT運維決策存在很大風險，如果IT投入過少，將容易導致整個業務運營服務系統的崩潰，反之則造成浪費。

這個時候，根據運維大數據週期性分析技術運用而生的指標基線預測的優勢也就體現出來，通過對歷史性的運維數據的學習、分析，預測出未來一段時間（7天）內各項指標值的變化趨勢圖，運營商運維人員便可根據基線預測知曉節假日高峯期各項IT指標的可能運行形態，進而可以提前採取措施，深層次保障業務系統的穩定性、安全性！

大數據的價值挖掘本就不是一個單一、簡單的過程，其中內容牽扯甚廣，需要在數據規律的學習過程中不斷完善。所以，別以爲運維大數據價值的挖掘掌握以上兩種分析計算方法就能OK，更多情況下，應該是以相關性分析和週期性分析作爲基礎，兩者相互結合***，再貼合運維業務對分析結果進行篩選和可視化呈現…….

結語

寫到這裏，我不禁在想一個問題：我們用運維大數據技術或者平臺來分析海量的運維大數據，挖掘這些數據的潛在價值，最終的目的到底是什麼？其實最關鍵的，還是數據分析的結論到底是否貼合業務，是否能夠對業務平臺提供IT基礎保障幫助，這實質上是又迴歸到運維本質問題！

別一口一句大數據，話說你真的懂運維大數據？

自動化運維，讓你遠離背鍋俠

【運維分享】全方位管理你的小機

大數據平臺規劃

如何構建安全的網絡連接機制

別一口一句大數據，話說你真的懂運維大數據？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結