DataOps - 數據驅動的智能運維丨QCon

阿里巴巴大數據運維團隊經過幾年運維數據中臺的建設,在數據化運維(DataOps)方向的前沿問題上積累了很多實踐經驗。本次分享將結合具體實踐案例,闡述如何通過數據實體服務,基於機器學習、運籌優化、自然語言處理和統計分析構造的智能分析服務,以及運維中間件服務,解決運維領域面臨的穩定性、成本、效率三大基本問題。具體包括:

(1)基於異常檢測和日誌聚類結果構建圖模型進行根因推斷,並利用自愈體系形成集羣診斷完整閉環以保障穩定性;

(2)通過構建大規模整數規劃模型優化應用在集羣間的排布,通過短期精準預測對公共雲用戶資源進行動態分配,從宏觀微觀兩個角度闡述成本的優化方法;

(3)利用報錯日誌打造智能答疑來提升運維人員效率,利用機器學習模型提升用戶數據同步任務的效率,並結合案例介紹效率與成本之間權衡的思想。通過本次演講,相信無論是運維人員還是算法工程師,都可以從阿里在智能運維領域積累的寶貴經驗中獲得啓發,深入理解AI算法如何基於數據中臺能力在真實的運維場景中落地。

內容大綱:

1、阿里巴巴大數據運維背景

2、智能運維保障穩定性實踐

  • 基於黃金指標的異常發現
  • 基於自然語言處理的日誌挖掘
  • 基於圖模型的根因推斷
  • 利用感知/決策/執行形成集羣診斷閉環

3、智能運維優化成本實踐

  • 宏觀——跨集羣應用排布優化
  • 微觀——公共雲資源動態分配

4、智能運維提升效率實踐

  • 運維人員提效——基於報錯日誌的智能答疑
  • 用戶提效——數據同步任務速率優化
  • 效率與成本的權衡——跨集羣複製的策略選擇

5、數據中臺建設思路

  • 數據實體服務
  • 智能分析服務
  • 運維中間件服務

聽衆收益:

1、瞭解阿里巴巴大數據運維場景下的智能運維完整思路與豐富實踐案例,爲企業級智能運維提供借鑑;

2、如何基於異常檢測、日誌聚類、根因分析等通用能力,利用自愈體系打造完整的集羣診斷閉環;

3、如何從宏微觀兩個角度進行成本優化;

4、如何幫助用戶和運維人員提升效率;

5、數據中臺建設的經驗和總結。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章