指标监控关乎稳定性,但随着数据量的增加、指标的复杂周期性和模式变化的动态性,基于阈值/同比环比的规则难以适用,而且复杂的领域知识导致为每条指标配置相应的规则费时费力,无法应用在大规模数据监控上。在监控的有效性方面,传统的规则报警无法智能识别季节性,也经常受到噪声/抖动数据的干扰而导致误报,固定的规则以及阈值更无法进行提前预警。
前言
在上面的背景下,淘系技术质量团队打造了一款基于AI算法的异常检测平台,Holmes是一款智能化、轻量级、易接入、可扩展的异常检测平台,使用基于AI的异常检测算法,替代传统的规则监控方案。解决规则告警系统准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。
Holmes目前已经在阿里内进行开放,覆盖淘宝、千牛、优酷、钉钉、淘宝直播等多个应用,核心指标量200+,整体准确率在90%以上,算法调用量高达1000万余次,有效进行故障的提前预警20余次。
平台理念
Holmes通过AI算法对业务指标进行检测和预测,从而实现智能化报警,弥补了规则监控的不足,减少误报和漏报情况。提供一站式的异常检测服务,满足时序数据的实时检测,提供多种接入方式,利用机器学习和深度学习方式,定制化学习模型,有效提升报警覆盖率,以智能化方式进行稳定性的监控和保障。
原文链接:【https://www.infoq.cn/article/up3KKEgtpQeU9xmtbCSk】。未经作者许可,禁止转载。