壓測機器: 100臺docker
redis集羣:16個分片
在開始壓測的半個小時中,一直很穩定,ops穩定在20w左右。但是接下來突然ops斷崖式下跌,ops降到了3w以下。然後持續一段時間,直至變爲0。
問題排查:
1. 檢查docker
docker都很健康,cpu佔用率,內存佔用率都正常,不到30%。網絡狀況也很好。
2. 檢查mq
mq也正常,響應時間沒有被可以拉長
3. 檢查redis集羣
redis集羣中,發現所有分片內存基本上被打滿
由於內存被打滿,導致redis會強制進行鍵驅逐操作,此操作會拉長請求的響應時間,導致大量請求被阻塞。此時會有大量客戶端連接操作:
果不其然,可以看到大量客戶端連接瞬間涌入,造成整體的ops下降。
解決方案:
清理掉壓滿的分片即可。或者採取擴容方案。