Gartner市場指南 | AIOps將成爲運維最主要的工具(一)

在這裏插入圖片描述
前言導讀:Gartner首席分析師Pankaj Prasad、Charley Rich,在對AIOps市場和用戶進行了深入的調研之後, 給出了AIOps平臺的市場分析和指南。對於國內面臨數字化轉型挑戰的大多數企業來說,爲什麼要採用AIOps平臺、AIOps有什麼優勢、到底能爲企業帶來什麼價值,讀完這系列文章或許能有所啓發。

智能運維AIOps平臺,往往是通過大數據、機器學習和可視化的方式讓IT運維工作變得更高效。企業基礎設施與運維負責人應該儘早啓動AIOps平臺部署工作,優化當前的性能分析,並在未來兩年至五年內擴展至IT服務管理和自動化領域。

01市場概述

主要發現
AIOps提供企業決策支撐:AIOps主要用於IT運維,且在企業中日益佔據主導地位,而一些成熟的組織已正在利用該技術爲企業領導者提供決策支撐。

  • 數據質量成爲新挑戰:AIOps技能和IT運維成熟度,是通過這些工具快速實現數據價值的保證,而數據質量則成爲成熟度部署的新挑戰。
  • 人工智能發揮作用:企業使用人工智能進行IT運維(AIOps),以增強或偶爾替代APM和NPMD工具。
  • 機器學習算法愈發重要:軟件商們正在制定機器學習戰略(AIOps中主要採用的技術),來應對分析運維數據量巨大、數據類型繁多和數據生成速度快三方面的數據挑戰。與此同時,他們也正在建立跨數據存儲和人工智能實踐的專業化水平。

落地建議
負責優化IT運維的基礎設施與運維領導者應該注意:

  • 部署AIOps工作時應當採用從歷史數據開始的增量方法,並逐步使用數據流,確保與不斷改進的IT運維成熟度一致。
  • 選擇能夠全面瞭解IT系統過去和現在狀態的平臺,採集並提供對文本和指標數據的訪問接口。
  • 深化IT運維團隊分析能力,選擇逐步部署基於IT運維機器學習四個階段的工具,包括描述性、診斷性、主動性能力和根因分析,以避免高危的設備運行中斷事故。

02市場定義

AIOps平臺是將大數據與機器學習功能相結合的軟件系統,主要對IT系統不斷產生的數據量、類型和速度進行拓展性的採集和分析,以支撐IT運維的主要功能。該平臺能夠同時使用多個數據源、數據採集方法、數據分析及演示技術。

市場描述
AIOps可以應用到廣泛的IT運維流程及場景中,包括性能分析、異常檢測、事件關聯分析、IT服務管理和自動化。

核心功能包括:

  • 從各種數據源中提取數據

    對提取的數據進行實時分析

    對存儲的數據進行歷史分析

    提供數據訪問接口

    存儲採集數據

    使用機器學習技術

    根據分析結果啓動操作

AIOps分析工作的目標是發現含有新元素的模式,並以此預測可能發生的事件和出現的情況,並及時回顧過往,確定當前系統行爲的根源(見下圖)。
在這裏插入圖片描述

03市場方向

AI技術在過去20年裏斷斷續續地影響了ITOM的演變,而AIOps就是最新的一個例子。IT運維管理面臨着兩難境地的巨大挑戰,一方面要降低成本,另一方面其複雜度又不斷攀升。主要體現在數據量巨大、數據類型繁多和數據生成速度快三個維度:

  • IT基礎架構和應用程序產生的數據量快速增長(年增長2-3倍)
  • 機器和人工生成的數據類型越來越多(例如指標、日誌、網絡數據和知識管理文檔)
  • 由於採用了雲架構和其他臨時性的架構,數據生成速度不斷提高,IT架構內變化速率也在提高

鑑於現代企業所需的洞察力,對這三個維度進行權衡的代價將相當巨大。現有的監控工具,在處理體量巨大、類型衆多、速度要求高的數據時,承受到了巨大壓力。更爲重要的是,監控工具不會在不考慮忽略數據類型的基礎上提取數據。例如,企業需要通過大量數據來獲得有用信息,這些數據包括跨越基礎架構和應用程序指標、客戶情緒數據、業務交易數據、傳感器遙測和各種系統的日誌。

非IT團隊,如業務線員工和外派的運維團隊(如應用程序開發人員和開發運維人員),對AIOps技術越來越感興趣,以便在使用多個數據集時展現自己的洞察力。而在某些情況下,安全和IT運維人員正在尋思着怎麼利用好這個通用平臺。

AIOps平臺的性能和成熟度,將會實現多個橫跨IT和安全操作的用例,這已成爲部署通用平臺的主要阻礙。此外,由於數字業務造成的IT需求速度不斷提高,因此需要藉助於一些工具:

  • 降低噪音(例如通過收斂誤報或冗餘事件的形式)
  • 提供因果關係,以確定事故的可能原因
  • 獲得超出靜態閾值的異常並主動檢測
  • 對未來事件加以推斷,防止潛在故障
  • 啓動解決問題的行動(通過直接/集成方式)

迄今爲止,AIOps功能主要是用來支持IT運維流程,監控或觀察IT基礎架構、應用程序行爲和數字化體驗。基於減少問題解決平均時間的能力,AIOps平臺無論是在事件管理中採用機器學習技術刪除重複數據,還是在APM中通過字節檢測或分佈式數據跟蹤分析應用程序的日誌數據,都被證明是合理可行的。

目前,AIOps平臺提取數據類型的範圍正在擴展,特別是過去僅支持日誌數據提取的供應商,正在大幅擴展數據類型範圍,包括數值型數據和網絡數據。
在這裏插入圖片描述
因此,考慮到供需方面的趨勢和技術差異,Gartner預計:在接下來的5年內,AIOps平臺事實上將擴展成爲以AIOps功能交付的形式,而不是將AIOps的功能嵌入在APM、NPMD或ITIM等監控工具中。

Gartner的客戶對AIOps越來越感興趣,並想通過大數據和機器學習技術來分析服務檯的有效性,以此參與到故障和問題解決流程中去。IT組織還開始在DevOps環境中探索AIOps,將其作爲持續集成/持續交付(CI/CD)週期的一部分,便於在部署之前預測潛在的問題,並檢測潛在的安全問題。

AIOps分析的應用超越了其最初的使用範圍,而成爲IT運維中事件關聯和分析的最佳解決方案。

運維部門也開始關注IT運維領域之外的用例。例如,2018年1月開始,Gartner客戶對設計儀表盤很感興趣,通過此顯示客戶滿意度、訂單流程和業務健康的實時分析情況。在這種情況下,AIops的目標是向業務線負責人提供實時洞察情況,讓他們瞭解IT對業務的影響,並幫助他們根據相關數據做出決策。

**Gartner認爲,AIOps將演變爲雙向解決方案,不僅可以採集數據加以分析,而且還可以根據分析結果進行操作。**這些操作最有可能通過與其他ITOM和ITSM工具相集成的形式,包括以下幾種:

  • 告警
  • 問題分類
  • CMDB
  • 訂閱自動化運行
  • 應用程序發佈與編排

AIOps工具監控作業分爲四個階段:數據採集、數據聚合、數據分析和數據處理,具有數據聚合和分析的核心功能。隨着技術進一步的發展,用戶將能夠利用平臺的主動建議功能,實現數據處理作業。
在這裏插入圖片描述

隨着當下應用程序對機器用量的增加,一些組織將數據採集作爲本機的應用能力。此外,一些用戶利用開源技術採集數據,從而繞過作爲專用域的監控工具APM,將AIOps作爲主要的監控工具。

關於監控工具與AIOps的爭論纔剛剛開始,而且可能還會繼續發酵。然而,從長遠來看,監控工具將成爲該領域的專家,而AIOps將成爲IT運維最主要的工具。

如何通過AIOps手段增加運維效能和降低運維成本,對於企業來說都是很大的挑戰。而致力於智能運維AIOps領域的擎創科技,已經爲國內多家銀行和證券用戶成功部署夏洛克AIOps平臺,助力企業運維降本增效:

  • 強大自研數據採集器:支持Linux、Windows、AIX等多種系統,可採集除日誌外的性能數據、網絡數據、CMDB數據等各類數據;
  • 創新的數據流處理方式:單數據流峯值每秒採集350000 條,可處理日增數據30TB;
  • 人工智能算法:與復旦大學運維實驗室共研10+種人工智能算法,異常檢測和根因定位更容易。

本文對AIOps平臺的市場狀況和市場方向作了詳細的闡述,系列文章還將對AIOps進行市場分析,並提供相關AIOps平臺的部署建議。

作者:Pankaj Prasad& Charley Rich
來源:https://www.gartner.com/doc/reprints?id=1-5UWPRFW&ct=181126&st=sb
編譯:林含飛
編譯過程中有所刪減

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章