蚂蚁集团如何在大规模 Kubernetes 集群上实现高 SLO？

原創

2020-08-11 14:33

随着 Kubernetes 逐渐成为云计算的标准，企业中的 Kubernetes 应用正成为主流。根据 CNCF 2019 Kubernetes 使用调查报告的显示：目前 84% 的用户已经在生产环境中使用 Kubernetes，生产环境中容器部署规模超过 1000 的比例是 34%，其中超过 5000 的大规模应用比例是 19%。当集群越来越大、越来越复杂，集群可用性就会面临挑战。

整体指标：集群是否健康，所有组件是否正常工作，集群中 Pod 创建的失败数量有多少等等；
追踪能力：集群中发生了什么，是否有异常，用户做了什么事情等等；
原因定位：出现异常之后，找到是哪个组件出了问题。

想要解决这些问题，比较好的一个方法就是 SLO，通过定义 SLO 来描述集群的可用性，追踪集群中 Pod 的生命周期，一旦出现失败 Pod，快速定位异常组件。本文采访了蚂蚁集团技术专家范康和姚菁华来分享蚂蚁集团的 SLO 体系是如何建立的。

大家常会听到 SLA，其实 SLA 是 SLO 衍生出来的协议，SLA 协议会形成具有法律效力的合同，通常是服务供应商和外部客户之间签订的，而 SLO 是用于内部服务之间，定义服务所提供功能的一种期望状态。

SLO 指标定义

如果我们要通过定义来描述集群的可用性，那么具体的描述指标就成为了需要解决的关键问题。在蚂蚁集团内部，集群可用性的关键指标包含五个：集群健康度、Pod 创建成功率、残留 Terminating Pod 的数量、服务在线率和故障机数量。

原文链接:【https://www.infoq.cn/article/VuCOims462XbPQwrcftl】。未经作者许可，禁止转载。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

蚂蚁集团如何在大规模 Kubernetes 集群上实现高 SLO？

SLO 指标定义

【面试准备】又一次失败的面试经历，题目离谱～资深软件测试工程师

dotnet 8 版本与银河麒麟V10和UOS系统的 glibc 兼容性

編程語言巔峯之戰，誰纔是真正的王者？

編程語言巔峯之戰，誰纔是真正的王者？| InfoQ編程語言排行榜

再推數據、AI新品，華爲雲又有哪些能力升級？

華爲雲TechWave全球技術峯會（人工智能&數據），四大看點提前劇透

操作系統快速發展，openEuler如何先行一步

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結