美团一站式业务稳定性保障平台的 AIOps 实践丨QCon

美团即时物流业务,对于系统稳定性有极高的挑战。1. 峰值流量高; 2. 瞬间峰值大; 3. 业务链路长; 4. 线上到线上的业务复杂度高; 5. 故障敏感,影响履约完成率,造成赔付和客诉。过往的稳定性保障更多的靠人工运维,多种容灾手段的组合,这种做法既不闭环,也很难评估效果,出现问题更多是靠人工经验和慌乱中的各种尝试,不仅耽误时间而且业务损失也大。

经过一年多的探索,即时物流业务在稳定性保障方面逐步建立了全面可靠的自动化可运维的系统,全面覆盖系统各个链路和环节,并且在集团内部也推广到其他事业群使用。从过往的总结效果来看,在 AIOps 方面我们还只是围绕质量保障实践了一小步,当前以及未来也会挖掘更多的机器学习的能力,来提升准确率和召回率。

内容大纲:

1、业务稳定性保障平台如何建设;

2、实践过程中遇到的技术难点,以及如何结合算法来提升准确率;

3、做好技术运营和数据沉淀,极大的提升可用性;

4、故障预测和故障诊断的方法;

5、如何把故障诊断和故障容灾能力打通,以及如何产品化;

6、未来在机器学习方面如何持续探索。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章