1、彙總
1.1、概述
信息: 版本2.1.0 master版本,tidb實例3個,tikv機器4臺(實例14個)
問題:線上某tidb集羣的tikv機器宕機後,QPS表現直接至0,且恢復時間較長,幾十分鐘級別,且需要宕機的機器起來後,才能快速恢復業務
處理:升級, 2.1.0 master 版本 至 3.0.2 版本
測試: 進行TiKV宕機測試(上面包含4個tikv實例)
1.2、測試彙總
此處:感謝官方支持升級~
2、具體
2.1、拓撲
3個tidb上層是 DNS 與TGW,流量被負載至3個tidb實例
tikv機器,單機4個tikv實例
2.2、集羣信息
數據量:9T
regions:14w
鄭州不孕不育醫院:http://jbk.39.net/yiyuanzaixian/zztjyy/
2.3、宕機
關閉某tikv機器,上面有4個tikv實例
2.4、監控情況
可以從監控看出:QPS有短暫的下降, 1500左右下降至 1000左右,大約影響時間 30s內
再次開啓後,QPS有下降, 1500下降至 1000左右,大約影響時間 1分半鐘左右
2.5、業務反饋
業務反映:沒有發現業務異常與報錯