架構穩定性需要注意些什麼?如果你有好的觀點也可以拋出來,歡迎批評指導
1. 壓測知道你的容量,設置報警線;讀通過tcpcopy,寫通過染色數據,如此引入線上數據回放測試
2. 如果出現事故如何引導用戶
3. 拆分業務初期耦合的邏輯,拆分爲接口間調用
4. 拆服務,拆庫,避免一個庫掛掉,全站掛掉
5. 避免高峯上線,提前引入壓測
6. 日誌監控,各模塊流量監控
7. 每一次上線都要準備回滾方案
8. 對於異常流量的防禦和隔離,防刷
9. 單機服務熔斷機制
10. 流量優先級控制,避免無用任務佔用cpu
11. 事後總結,casestudy總結:如何快速發現,是否可以提前發現,是否可以快速止
12. 服務降級,當系統出現問題,允許關閉一些功能,甚至拒絕一部分流量
13. 引入效果監控,及時發現線上問題
14. 保護你的數據庫,如果庫掛掉或者被打滿,修復的代價會比較高