騰訊雲也崩了。。

大家好,我是R哥。

昨天騰訊雲崩了,事情大概是這樣的,15 點多的時候有好幾位粉絲向我反饋,說小程序「Java面試庫」不能正常加載答案,我看了下後臺系統日誌,發現騰訊雲環境 API 接口調用異常

然後發現小程序開發工具和雲開發環境也進不去了:

心裏判定大概率是騰訊雲出了故障,於是我跑去平臺交流社區看了下,果然發現滿屏的小程序和騰訊雲故障的問題

騰訊雲控制檯也進不去了:

明確了是騰訊雲的故障,我緊急向「Java面試庫」微信羣發佈了故障通知,在和粉絲的溝通中,也有粉絲說客戶用的騰訊雲 API 也報錯了:

大約等到 16:40 左右,騰訊雲小程序雲環境部分終於恢復了,但粉絲反饋說騰訊雲控制檯還是死的:

同時,我瞭解到此次故障可能是由於全面升級雲存儲解決方案造成的,升級的目標是使數據清洗和訓練耗時縮短一半,結果此消息剛發沒多久,雲產品就全線崩潰。。

從 15 點多發生故障,再到 17:16 徹底恢復,整個過程耗時超過一個半小時,全年不可用時間超過 90 分鐘,這意味着騰訊雲的 2024 年度 SLA 服務可用性已經達不到 4 個 9 了,即 99.99%

達到 99.99% 需要全年不可用時間不超過 52.6 分鐘,關於 SLA 服務可用性的計算可以參考這篇:SLA 服務可用性 4 個 9 是什麼意思?怎麼達到?

雖然現在的互聯網用戶都對雲故障習以爲常了,包容性也更強了,但這麼長時間不可用,這對目前來說嚴重依賴雲服務的企業來說是不可接受的,可能會面臨巨大損失。


最後,此事件也讓我吸取教訓了。

我對小程序「Java面試庫」作了以下調整優化:

一、服務降級

當遇到不可抗力的故障外,給出降級策略:

1、調用雲環境 API 接口部分,採用緩存策略,定時拉取最新數據並緩存到本地,如果調用 API 失敗即使用本地緩存,這樣可以做到 99% 的用戶不受雲環境 API 故障影響。

2、不在緩存中的數據,提醒用戶類似如 “騰訊雲故障,官方正在修復中,請稍候重試...” 的友好說明,避免對面試庫產生誤會。

二、定期備份數據

雖然騰訊雲有定期備份策略,但關鍵的數據還得自己備份存檔,以防止意外發生。


最近面試的人還挺多了,小程序「Java面試庫」所用的騰訊雲帶寬都開始報警了:

不過還好,只是偶爾的高峯而已,外網出帶寬使用率還沒超過平均值,有面試需要的來小程序「Java面試庫」刷題吧,面試庫更新了 3 年+,從 0 更新到現在 2500+ 道題,幫助很多小夥伴找到了工作,也有不少進入大廠的案例。

昨天小程序因官方故障,有個粉絲說他 5 點還有面試:

看來不少人對我的Java 面試題依賴還挺深,裁員越來越多,刷題面試找工作的人也越來越多,今年我也會繼續優化和升級服務,儘可能保證刷題可用性和穩定性。

更多文章推薦:

1.Spring Boot 3.x 教程,太全了!

2.2,000+ 道 Java面試題及答案整理(2024最新版)

3.免費獲取 IDEA 激活碼的 7 種方式(2024最新版)

覺得不錯,別忘了隨手點贊+轉發哦!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章