Redis 高負載排查記錄

原創

php開源社區

2021-03-30 21:28

週一早上剛上班，突然大量用戶反饋進入網頁很慢，登錄服務器一看，Redis調用時間嚴重超時，這樣高速的緩存反而變成了短板，由於數據一直沒有返回，導致了請求響應變慢。

網頁監控

通過阿里的 Grafana 監控，服務器的 CPU 負載、內存、網絡輸入輸出都挺正常的，所以肯定是 Redis 出現了問題。

我們應用使用的是單節點的 32M 16GB 的阿里雲 Redis，登錄網頁監控看性能監控，發現 CPU 使用情況飆升到100%！！！

QPS 雖然從 1000 多升到 6000，但是遠遠低於極限值，連接數量從 0 升到 3000，也是遠遠低於極限值（可能用戶剛上班，開始有請求，然後響應延遲，導致命令隊列數量過多，打開很多連接）。

臨時方案：先租用一臺新的 Redis 服務器，更換應用服務器的 Redis 配置，重啓應用，避免影響更多用戶。

然後我們繼續跟蹤 Redis 的具體情況。

服務器命令監控

登錄 Redis-cli，通過 info 命令查看服務器狀態和命令統計，祥哥總結了兩點異常點：

查詢 redis 慢指令 slowlog，排行前十的指令均爲keys *，並且耗時嚴重，在當前業務流量下執行keys* ，一定會阻塞業務，導致查詢慢，cpu 高的。值得注意的是應用層面沒有開放 keys * 接口，不排查有後臺人爲或後臺程序觸發該指令。

查看 redis 指令執行情況，排除 exec,flushall 等指令，業務使用指令中，耗時嚴重的有 setnx 有7.5千萬次調用平均耗時 6s，setex 有8.4千萬次調用平均耗時7.33s，del 有2.6億次調用平均耗時69s，hmset 有1億次調用平均耗時 64s，hmget 有6.8千萬次調用平均耗時 9s，hgetall 有14億次調用平均耗時 205s，keys 有2千萬次調用平均耗時 3740s。

通常而言，這些指令耗時與 value 大小呈正比，所以可以排查這些指令相關的數據近期有沒有較大增長。或者近期有沒有業務改造，會頻繁使用上述指令，也會造成 cpu 高。

（當時忘了截圖，下圖只是展示命令和參數含義）

通過 info commandstats 可以查看 Redis 命令統計信息，其中命令格式是

cmdstat_XXX: calls=XXX,usec=XXX,usec_per_call=XXX
調用次數、耗費CPU時間、每個命令平均耗費CPU(單位爲微秒）

通過 slowlog 命令查看慢命令（默認超過 10ms 就會被記錄到日誌，只會記錄其命令執行的時間，不包含 IO 往返操作，也不記錄單由網絡延遲引起的響應慢）

(當時也忘了截圖，所以就介紹一下 slowlog 怎麼看）

xxxxx> slowlog get 10
 3) 1) (integer) 411           
    2) (integer) 1545386469     
    3) (integer) 232663          
    4) 1) "keys"              
       2) "mecury:*"

圖中各字段表示的是：

1=日誌的唯一標識符
2=命令的執行時間點，以UNIX時間戳表示
3=查詢命令執行時間，以微妙爲單位，🌰中的是230ms
4=執行的命令，以數組的形式排列。完整的命令是 keys mucury:*

所以通過這些參數，基本可以確定，是突然有大量的keys *命令導致CPU負載升高，導致響應延遲，問題我們應用中沒有開放keys *命令Σ(oﾟдﾟoﾉ)

最後將這些統計結果和慢命令發到研發羣，發現是別的應用配置配成了我們的Redis，然後他們有個業務場景是爬數據，突然湧入大量的調用，不斷的keys *，導致我們的Redis不堪重負，於是將配置修改正確，不再調用我們的Redis。

總結

Redis 抖動可以先看網頁監控（阿里雲做的真好！）
通過命令查看 Redis 指令狀態和慢命令的情況
考慮優化 Redis 在代碼中的使用情況
如果流量繼續上升，需要考慮一下升級了=-=

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Redis 高負載排查記錄

網頁監控

服務器命令監控

總結

手把手教你給 SSH 啓用二次身份驗證

你真的知道如何查看linux目錄大小嗎？

面試官：爲什麼單線程的Redis可以實現高併發訪問

一次完整的 Http 請求過程

Docker 容器默認root賬號運行，很不安全！

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結