因網絡配置錯誤,Cloudflare發生27分鐘中斷

Cloudflare是一家從事Web性能和可靠性保證的公司,最近,它的網絡性能和服務出現了部分中斷,持續了27分鐘。Cloudflare主幹網中的一個錯誤導致了這次中斷,導致整個網絡的流量下降了50%。CloudFlare CTO John Graham-Cumming在博文中澄清,這次中斷不是由任何類型的攻擊或破壞引起的。

Graham-Cumming表示,公司的網絡工程團隊更新了一個路由器配置,以便減少網絡擁塞,解決一個不相關的問題。問題出在主幹網從紐瓦克到芝加哥之間的一個分段上。配置上的錯誤導致所有的通信通過主幹網被髮送到亞特蘭大路由器,給路由器造成巨大的負載。

這導致連接到亞特蘭大的Cloudflare網絡位置不可用。受影響的20個地點分別是聖何塞、達拉斯、西雅圖、洛杉磯、芝加哥、華盛頓特區、里士滿、紐瓦克、亞特蘭大、倫敦、阿姆斯特丹、法蘭克福、巴黎、斯德哥爾摩、莫斯科、聖彼得堡、聖保羅、庫裏提巴和阿雷格里港。

Twitter用戶開始報告服務出現故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico和Shopify等網站都受到了影響。

Graham-Cumming向大家道歉,並對主幹網的配置做了一個全面的修改,以防止這種中斷再次發生。Cloudflare首席執行官Matthew Prince進一步透露了細節,他在推特上寫道:“根本原因是主幹網上的路由器配置錯誤。我們已經採取了防護措施,以確保在未來類似的錯誤在不會造成問題。”

網絡論壇上既有支持的也有表示懷疑的。在Reddit上,一位名叫rotarychainsaw的用戶對容易犯的小錯誤(比如輸入錯誤)表示同情,“我的意思是……誰以前沒有犯過這樣的錯誤呢?”其他幾個評論者在同一個帖子對審覈過程提出了質疑,hennirl問道:“我很好奇這個變更是如何通過變更審覈的。他們肯定有不同的配置變化,至少有兩波人在看吧?……”。

2019年7月2日也發生了一次類似的中斷,當時Cloudflare網站拋出了502錯誤,原因是CPU利用率大幅上升。Jerome Fleury在推特上敦促用戶提出(“困難的”)問題,他說宕機讓他們學到了“很多教訓”。

有興趣的讀者可以在InfoQ與Ryan kitchen的相關播客以及Learning from Incidents博客中看到更多關於後期剖析、“根源”問題、克服學習障礙等話題。

原文鏈接

Cloudflare’s 27 Minutes Outage Explained

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章