因网络配置错误,Cloudflare发生27分钟中断

Cloudflare是一家从事Web性能和可靠性保证的公司,最近,它的网络性能和服务出现了部分中断,持续了27分钟。Cloudflare主干网中的一个错误导致了这次中断,导致整个网络的流量下降了50%。CloudFlare CTO John Graham-Cumming在博文中澄清,这次中断不是由任何类型的攻击或破坏引起的。

Graham-Cumming表示,公司的网络工程团队更新了一个路由器配置,以便减少网络拥塞,解决一个不相关的问题。问题出在主干网从纽瓦克到芝加哥之间的一个分段上。配置上的错误导致所有的通信通过主干网被发送到亚特兰大路由器,给路由器造成巨大的负载。

这导致连接到亚特兰大的Cloudflare网络位置不可用。受影响的20个地点分别是圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和阿雷格里港。

Twitter用户开始报告服务出现故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico和Shopify等网站都受到了影响。

Graham-Cumming向大家道歉,并对主干网的配置做了一个全面的修改,以防止这种中断再次发生。Cloudflare首席执行官Matthew Prince进一步透露了细节,他在推特上写道:“根本原因是主干网上的路由器配置错误。我们已经采取了防护措施,以确保在未来类似的错误在不会造成问题。”

网络论坛上既有支持的也有表示怀疑的。在Reddit上,一位名叫rotarychainsaw的用户对容易犯的小错误(比如输入错误)表示同情,“我的意思是……谁以前没有犯过这样的错误呢?”其他几个评论者在同一个帖子对审核过程提出了质疑,hennirl问道:“我很好奇这个变更是如何通过变更审核的。他们肯定有不同的配置变化,至少有两波人在看吧?……”。

2019年7月2日也发生了一次类似的中断,当时Cloudflare网站抛出了502错误,原因是CPU利用率大幅上升。Jerome Fleury在推特上敦促用户提出(“困难的”)问题,他说宕机让他们学到了“很多教训”。

有兴趣的读者可以在InfoQ与Ryan kitchen的相关播客以及Learning from Incidents博客中看到更多关于后期剖析、“根源”问题、克服学习障碍等话题。

原文链接

Cloudflare’s 27 Minutes Outage Explained

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章