一次緩存性能問題排查

概述

以下分享的都跳過了很多坑，包括redis、tomcat環境配置、機器硬件配置等等問題（與線上保持一致，或者硬件性能減配係數，例如線上：8C16G，壓測：4C8G，係數簡單相差2倍），直接把挖掘瓶頸的主要思路搬出檯面。

壓測數據分析

全局圖預覽

通過對某直播觀看頁面進行高併發壓測，在APM（Pinpoint）監控中發現一個有趣的地方：

上圖中兩個紅框中的數據（接近10s），相隔大概30分鐘就發生，16:20左右，系統撐不住服務出現異常不可用，懷着好奇的心態，追查方法調用的棧，如下圖所示：

該方法耗時多久呢？首先搞清楚Call Tree裏面的一些概念：

可見這個sql查詢方法耗時14秒多，爲什麼呢？APM裏面已經顯示了sql語句，在mysql中執行查詢發現執行時間很快，那麼問題出在哪裏呢？只能繼續深挖！

通過對比同樣的url，請求響應毫秒級的情況下，發現數據如下圖所示：

從redis獲取到數據後，並沒有再執行sql查詢了，通過這個分析，我們決定追蹤代碼還原真相（不懂代碼的測試不是好開發）：

可以看到緩存失效之後，直接查詢數據庫了

解決方案

SQL優化：優先級低

從數據分析來看，sql優化的用處不大，並不是返回了大量數據缺少索引，此次可以跳過。

緩存併發：優先級高

　　出現場景：當網站併發訪問高，一個緩存如果失效，可能出現多個進程同時查詢DB，同時設置緩存的情況，如果併發確實很大，這也可能造成DB壓力過大，還有緩存頻繁更新的問題。
　　處理方法：對緩存查詢加鎖，如果KEY不存在，就加鎖，然後查DB入緩存，然後解鎖；其他進程如果發現有鎖就等待，然後等解鎖後返回數據或者進入DB查詢。

經驗總結

1、善用監控工具，例如APM，進行鏈路監控、服務器性能、方法調用順序觀察

2、追蹤方法棧和相關日誌

3、深入排查代碼挖本質

微信公衆號：樂少黑板報

一次緩存性能問題排查

概述

壓測數據分析

解決方案

SQL優化：優先級低

緩存併發：優先級高

經驗總結

離開網易的轉型之路2：無悔選擇測試之路-路上的抉擇、進取

離開網易的轉型之路3：熱愛測試之路-路上的風景

APM入門與實戰

設計先行，編碼在後

團隊轉型之痛之悟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結