智能運維AIOps的前世今生(上)

IT運維,從來都不是一項輕鬆的工作,無論是工作強度還是複雜度,運維工程師承受的壓力都不小。運維又是各企業發展過程中至關重要的一環,在企業發展和壯大過程中起到了不可替代的作用,其重要性不言而喻。

2016年開始,歷經大起大落的人工智能(AI)以高姿態重新回到人們視野,其帶來多項技術的變革,迅速滲透到各行各業當中,包括運維行業。AI的應用進一步優化了目前運維的工作方式,提升了運維工作的整體效果,也爲未來運維的發展模式指明瞭前進方向。

IT運維的定義與現狀

運維,一般指的是對產品及其上運行系統的運營和維護,其核心目標是將交付的應用業務、系統軟件和硬件基礎設施高效穩健地整合,轉換爲可持續提供高質量服務的產品或平臺,同時最大限度降低保障運行的成本,確保服務運行的安全。

傳統的IT運維管理,其基本工作模式主要是手工運維輔以少量工具。由於缺乏高效的運維機制以及運維工具,運維工程師的日常工作就是處理各種簡單重複的問題;而且由於在部署中未設置預警或者提示系統,只有當問題大規模出現並導致一定後果時,運維工程師纔會被通知解決問題。這種工作模式下運維工作人員面對的問題往往比較複雜,同時由於故障處理不及時,事故時有發生。

提起運維工程師,很多人都會把他們和“消防員”聯繫起來,這種形象的出現與最初運維的方式——“救火式運維”有很大的關係。後來隨着運維環境的改變、數據量的增加、系統複雜程度和集成程度的加大,運維工程師的工作量也逐漸加大,運維工程師開始面臨更多挑戰。
在這裏插入圖片描述

  1. 運維人員增速跟不上信息系統規模增長速度。信息系統規模增加,使得同一個系統需要更多的運維人員維護,人員需求量的快速增加也在某種程度導致了運維人力成本的增長。儘管如此,由於運維工作的特殊性與辛勞程度,很多人對這份哪怕是某種程度的高薪工作也只能望而卻步,運維人員數量漲幅明顯低於市場需求。
  2. 在這裏插入圖片描述
  3. 運維的系統架構轉變增加運維難度。現有企業的系統架構,正在慢慢從傳統的側重於縱向擴展和以小型機、存儲爲主的IOE架構(即建立在IBM小型機+Oracle數據庫+EMC存儲設備上的數據處理架構),逐步演變成側重於橫向擴展、分佈式部署和以大量的X86服務器爲核心的分佈式開源系統架構。這一轉變也使得運維的工作量加大、難度指數提升。
  4. 在這裏插入圖片描述
  5. “人肉運維”過渡到“技術運維”的難度。在“人肉運維”時代,運維人員習慣於“眼前的苟且”,運維模式主要是救火式(被動式)運維,但這種運維壓力很大,需要通過人海戰術來完成工作、倚重運維人員的技能與經驗對事故作判斷與完善。而在新的“技術運維”時代,運維人員追求的是“詩和遠方”,運維工作主要採取預防式(主動式)運維進行,依託運維技能與經驗,由機器提供“持續運維”服務。

運維的發展歷程

隨着科技的發展與市場要求的提高,運維的工作方式正在逐步改進,開始由最初的手動運維模式,逐步演變爲更專業與更高效的智能運維模式。從發展歷程來看,IT運維的演變大致可分爲三個發展階段:
在這裏插入圖片描述
1. 人工運維階段
這個時期是IT運維的軟件工具和流程初始化的時期,使用工具的目標僅僅是計算機化,運維的工作主要依靠人工完成,運維的流程尚屬摸索階段,還沒有形成行業共識。

2. 自動化運維階段
根據技術成熟度的不同,該階段又可分爲Pre-DevOps階段與DevOps階段(Development and Operations,即開發運維,是促進業務線、開發和 IT 運營之間開展緊密協作的方法)。

在Pre-DevOps階段,ITIL(Information Technology Infrastructure Library,即IT基礎架構庫)、DevOps等理念被提出,這個時期開始了圍繞如何落地DevOps工具鏈的技術研究,業內就IT研發與運維逐步達成了共識。

其次是DevOps階段,此階段DevOps的工具鏈已經比較成熟,這個時期的運維從某種程度上來說可以算作真正的自動化運維,此階段更加強調從運維流程和運維措施等層面實現完全的自動化,甚至在特定情況下可以實現無人干預。

3. AIOps智能運維階段
自動化運維給傳統運維的效率帶來了很大提升,但是系統軟件只能預置和按照人類制定的流程運行工作,不能自主適應,甚至不能處理相似的“新”問題。此階段恰逢AI重新崛起,人工智能的種種特質對運維當前的一些痛點提供了良好的解決方案,AI開始被運用到IT運維領域;而且運維與AI有天然的結合優勢,不像其他領域需要數字採樣(如語音和視覺的數字化轉換),但運維領域的日誌、配置、操作、腳本、程序等是計算機自動生成的,也是最利於AI處理的領域之一。

AI在運維領域的應用

在運維行業經歷了初始、專業化、工具化、平臺化、雲化和智能化過程中,從手動運維階段的無數據化,發展成規模化、結構化和智能化、非結構化數據的趨勢。人工智能所扮演的角色也由充當輔助人類的助手角色,轉變爲今天運維的主要角色,成爲新一代運維的主導。
在這裏插入圖片描述
1. 手動運維階段
運維工作量小,運維人員的主要工作是查看監控屏幕。隨着運維要求的提高,產生了穩定、便捷、可靠、快速的工作原則。人工智能在人的經驗基礎上,對結構化日誌和配置等數據進行挖掘分析,找出數據中的信息,從而優化腳本等工具。

2. 規模化階段
隨着DevOps概念的推出和大量工具涌現,很少有一家公司可以生產覆蓋所有DevOps生命週期的工具。另外,隨着一些創業型公司崛起,運維工作量爆發式增長,爲了保證業務的連續性,此時期產生了SRE(Site Reliability Engineer ,即網站可靠性工程師,是軟件工程師和系統管理員的結合),主要目標是通過軟件工程技術實現業務大幅增長和保持運維工作平穩。人工智能可以做的是通過迭代、收斂與反饋、逼近工作,確保自動化運維的穩定性以及系統的性能。

3. 生態化階段
隨着互聯網發展,少數大公司承擔起了基礎設施的工作,通過高度集中提升數倍的運維效率讓雲計算客戶專注於業務的發展,並將基礎設施運維交給雲計算平臺。市場規模繼續增長的同時,一個公司無法使用一套解決方案覆蓋所有細分市場的需求,生態化開始產生。此時大量的數據恰恰爲人工智能的實用化夯定了基礎,人工智能可以做的是:比如不同公司負責一部分問題形成生態圈,在其中結合新的感知能力輔助人類在巨大數據量、變化的規律中做出各項操作決策。

AIOps的定義與應用

1. AIOps的概念
在人工智能再次崛起的這幾年裏,新技術不斷涌現,利用數據科學和機器學習來推進日益複雜的企業數字化進程成爲現實,“AIOps” 應運而生。
根據Gartner公司預測,到2020年,將近 50% 的企業將會在他們的業務和IT運維方面採用AIOps,佔比遠遠高於今天的10%。而2016年,Gartner就已正式將AIOps定義爲新的運維類別,Gartner認爲當今的時代,數據科學和算法正被用於傳統的 IT 運維任務和流程來幫助企業進一步簡化運維工作,把人類從耗時又容易出錯的流程中解放出來。人們不再需要在遺留的管理系統中定義和管理無窮無盡的規則和過濾器。

爲了更好理解AIOps的概念,需要理解AI、機器學習、深度學習幾個概念,可以用一張圖來表示:
在這裏插入圖片描述
簡單來說,人工智能(AI)是一個廣義概念,早期提出時人們的願景是希望AI能夠完全具備人類智慧,這屬於“強人工智能”(General AI)。不過在實踐中,通常是在某個非常具體和特定的領域,機器逐漸趕超人類,如戰勝人類圍棋選手的阿爾法狗,這些人工智能的應用,稱之爲“弱人工智能”(Narrow AI)。這些應用的實現手段得益於機器學習算法的進步,機器學習算法只是實現AI的其中一種手段,而深度學習又是機器學習領域精深的一部分。
在這裏插入圖片描述
AIOps拆分爲AI+ Ops會準確一些,也就是Ops與AI相結合,即人工智能運維。AIOps涉及的技術,從AI的角度主要是機器學習算法,以及大數據相關的技術。因爲涉及到大量數據的訓練和計算,從Ops的角度是運維自動化、智能化相關的技術。

通俗的講,AIOps是對Ops的AI化,即將人工總結運維規律的過程變爲自動學習的過程。具體而言,是對我們平時運維工作中,長時間積累形成的自動化運維和監控等能力,將其監控、規則、配置、執行等部分進行自學習的“去規則化”改造,最終達到終極目標:“有AI調度中樞管理和質量、成本、效率三者兼顧的無人值守運維,力爭所運營系統的綜合收益最大化”;或者說,利用大數據、機器學習和其他分析技術,通過預防預測、個性化和動態分析,直接和間接增強IT業務的相關技術能力,實現所維護產品或服務的高質量、合理成本和高效支撐。

2. AIOps的組成與主要作用
功能方面,根據Gartner的定義,AIOps平臺擁有11項能力,包括歷史數據管理、流數據管理和日誌數據提取等。爲了更好的理解和落地,可以將前9項能力分別納入數據接入層、大數據管理層、大數據分析層、應用模塊層和可視化展現層,這五層邏輯架構中,各層的功能如下:

數據接入層:通過開放的API接口,廣泛接入企業IT系統的歷史數據、流數據、日誌數據、網絡數據、算法數據、文本和NLP文檔數據,以及APP數據、瀏覽器數據、業務系統運營指標數據等不同數據源的數據;

大數據管理層:對業務系統和IT支撐系統產生的結構化和非結構化數據進行統一、高效的存儲、管理和調度;

大數據分析層:聚合數據建模、大數據分析能力,實現業務和IT數據的關聯分析,通過人工智能對業務波動、故障判斷、修復操作等依靠人力決策的環節進行持續學習和自動化響應;

應用模塊層:針對基礎設施、應用和業務系統之間的邏輯拓撲,提供覆蓋全部技術棧的基礎設施監控、應用性能管理、業務決策分析以及異常檢測、根因分析和統一告警服務;

可視化展現層:以可視化大屏或頁面的形式實時展現業務系統運行狀態、IT資源利用率等智能運維的關鍵指標,第一時間發現IT對業務的影響,輔助商業決策。

注:本文內容與圖片均來自於網絡,相關內容作了一定的修改

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章