因網絡配置錯誤，Cloudflare發生27分鐘中斷

原創

2020-09-07 17:18

Cloudflare是一家從事Web性能和可靠性保證的公司，最近，它的網絡性能和服務出現了部分中斷，持續了27分鐘。Cloudflare主幹網中的一個錯誤導致了這次中斷，導致整個網絡的流量下降了50%。CloudFlare CTO John Graham-Cumming在博文中澄清，這次中斷不是由任何類型的攻擊或破壞引起的。

Graham-Cumming表示，公司的網絡工程團隊更新了一個路由器配置，以便減少網絡擁塞，解決一個不相關的問題。問題出在主幹網從紐瓦克到芝加哥之間的一個分段上。配置上的錯誤導致所有的通信通過主幹網被髮送到亞特蘭大路由器，給路由器造成巨大的負載。

這導致連接到亞特蘭大的Cloudflare網絡位置不可用。受影響的20個地點分別是聖何塞、達拉斯、西雅圖、洛杉磯、芝加哥、華盛頓特區、里士滿、紐瓦克、亞特蘭大、倫敦、阿姆斯特丹、法蘭克福、巴黎、斯德哥爾摩、莫斯科、聖彼得堡、聖保羅、庫裏提巴和阿雷格里港。

Twitter用戶開始報告服務出現故障，League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico和Shopify等網站都受到了影響。

Graham-Cumming向大家道歉，並對主幹網的配置做了一個全面的修改，以防止這種中斷再次發生。Cloudflare首席執行官Matthew Prince進一步透露了細節，他在推特上寫道：“根本原因是主幹網上的路由器配置錯誤。我們已經採取了防護措施，以確保在未來類似的錯誤在不會造成問題。”

網絡論壇上既有支持的也有表示懷疑的。在Reddit上，一位名叫rotarychainsaw的用戶對容易犯的小錯誤（比如輸入錯誤）表示同情，“我的意思是……誰以前沒有犯過這樣的錯誤呢？”其他幾個評論者在同一個帖子對審覈過程提出了質疑，hennirl問道：“我很好奇這個變更是如何通過變更審覈的。他們肯定有不同的配置變化，至少有兩波人在看吧？……”。

2019年7月2日也發生了一次類似的中斷，當時Cloudflare網站拋出了502錯誤，原因是CPU利用率大幅上升。Jerome Fleury在推特上敦促用戶提出(“困難的”)問題，他說宕機讓他們學到了“很多教訓”。

有興趣的讀者可以在InfoQ與Ryan kitchen的相關播客以及Learning from Incidents博客中看到更多關於後期剖析、“根源”問題、克服學習障礙等話題。

原文鏈接：

Cloudflare’s 27 Minutes Outage Explained

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

因網絡配置錯誤，Cloudflare發生27分鐘中斷

Docker宣佈開源ECS和ACI的Compose集成實現

因網絡配置錯誤，Cloudflare發生27分鐘中斷

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結