美團一站式業務穩定性保障平臺的 AIOps 實踐丨QCon

美團即時物流業務,對於系統穩定性有極高的挑戰。1. 峯值流量高; 2. 瞬間峯值大; 3. 業務鏈路長; 4. 線上到線上的業務複雜度高; 5. 故障敏感,影響履約完成率,造成賠付和客訴。過往的穩定性保障更多的靠人工運維,多種容災手段的組合,這種做法既不閉環,也很難評估效果,出現問題更多是靠人工經驗和慌亂中的各種嘗試,不僅耽誤時間而且業務損失也大。

經過一年多的探索,即時物流業務在穩定性保障方面逐步建立了全面可靠的自動化可運維的系統,全面覆蓋系統各個鏈路和環節,並且在集團內部也推廣到其他事業羣使用。從過往的總結效果來看,在 AIOps 方面我們還只是圍繞質量保障實踐了一小步,當前以及未來也會挖掘更多的機器學習的能力,來提升準確率和召回率。

內容大綱:

1、業務穩定性保障平臺如何建設;

2、實踐過程中遇到的技術難點,以及如何結合算法來提升準確率;

3、做好技術運營和數據沉澱,極大的提升可用性;

4、故障預測和故障診斷的方法;

5、如何把故障診斷和故障容災能力打通,以及如何產品化;

6、未來在機器學習方面如何持續探索。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章