緩存中間件-緩存架構的實現（下）

前言

緩存架構，說白了就是利用各種手段，來實現緩存，從而降低服務器，乃至數據庫的壓力。

這裏把之前提出的緩存架構的技術分類放出來：

瀏覽器緩存
- Cookie
- LocalStorage
- SessionStorage
CDN緩存
負載層緩存
- Nginx緩存模塊
- Squid緩存服務器
- Lua擴展
應用層緩存
- Etag
- ThreadLocal
- Guava
外部緩存
- Redis
數據庫緩存
- MySql緩存

前面的《緩存中間件-緩存架構的實現（上）》已經簡單說明了瀏覽器緩存，CDN緩存，負載層緩存。這次將會繼續闡述應用層緩存，外部緩存，數據庫緩存。

應用層緩存

應用層的緩存，往往用戶的請求最終達到了應用服務器，但是未達到數據庫，其涉及應用服務器的具體開發。

Etag

之所以將Etag技術放在應用層緩存，是因爲用戶的請求必定達到應用層。

Etag的意思就是，如果連續兩次請求的請求內容是一致的，那麼兩次響應也應該是一致的。那麼第一次請求的響應，就可以充當第二次請求的響應。

當然實際業務中，也存在兩次請求一致，但是響應不一致（如都是查詢銀行餘額，但是並不一樣，可能兩次操作中間，工資到賬了）。這就涉及到緩存的數據一致性問題，後面會提到。這裏不再深入。

那麼應用服務器怎麼判斷兩次請求一致呢。它可以通過兩次請求的hash，進行對比判斷。其中涉及HTTP協議，如304狀態碼，請求協議頭If-None-Match字段，響應協議頭Etag字段。

請求流程

服務端已經做好了對應的開發與設置（如Spring的ShallowEtagHeaderFilter()）。

第一次請求

客戶端發出請求RequestA
服務端接收到客戶端的請求RequestA，進行以下處理：
1. 在應用中，根據請求RequestA計算對應的MD5值
2. 在返回響應ResponseA的協議頭中的Etag字段設置前面計算出來的MD5值
3. 返回對應頁面
客戶端接收到響應ResponseA，在瀏覽器中展示。並在瀏覽器中緩存ResponseA

第二次請求

客戶端再次發出請求RequestB，並且RequestB與RequestA請求內容相同（如都是請求同一個頁面等）
服務端接收到客戶端的請求RequestB，進行以下處理：
1. 根據請求計算的新ETag，並判斷是否與請求RequestB協議頭中的If-None-Match字段對應的值（就是之前ResponseA的ETag字段的值）一致
  1. 如果沒有超限，在Response中設置協議狀態爲304，向客戶端返回對應ReponseB
客戶端接收到響應ReponseB，確認其協議狀態爲304，則直接使用之前緩存的響應ResponseA，作爲請求RequestB的返回響應

上述其實是功能邏輯，如果按照代碼邏輯，其實應該這樣說：

客戶端

客戶端準備發送請求
瀏覽器檢測該頁面是否有對應的ETag字段的值
如果有對應的值，就置入請求的協議頭
準備妥當後，瀏覽器想服務器發送請求

服務端

根據請求的協議頭，判斷是否具備Last-Modified/If-None-Match字段
如果有對應字段，進行以下判斷
1. 根據請求計算的新ETag，並判斷是否與請求協議頭中的If-None-Match字段對應的值（就是之前ResponseA的ETag字段的值一致
  1. 如果沒有超限，在Response中設置協議狀態爲304，向客戶端返回對應Reponse
如果上述2中任一條件未滿足，則執行以下邏輯：
1. 在應用中，根據請求RequestA計算對應的MD5值，保存在應用中
2. 返回對應頁面
3. 在返回響應ResponseA的協議頭中的Etag字段設置前面計算出來的MD5值

準確地說，這應該是HTTP協議提供的緩存方案，而不僅僅只是ETag。因爲ETag僅僅與HTTP協議的五大條件請求首部中的If-None-Match與If-Match兩個首部相關。除此之外，還有If-Modified-Since，If-Unmodified-Since，If-Range三個條件請求首部。如果以後有機會專門寫一篇有關HTTP協議的博客。迫切的小夥伴，也可以翻閱《HTTP權威指南》一書的第七章（尤其是7.8）。

優勢

降低數據庫訪問壓力。如果ETag成功，則直接返回狀態碼304，沒有數據庫操作。
降低應用服務器壓力。如果ETag成功，則直接返回狀態碼304，無需業務操作等，如日誌。
降低帶寬壓力。根據統計表明，一般請求響應模型中，響應的報文大小遠大於請求的保溫大小。那麼如果返回響應的主體爲空，只有304狀態碼等協議頭，則可以大大降低系統帶寬壓力。

缺點

技術學習投入。如果想要較好利用，需要熟悉HTTP協議的緩存設計（包括理念，架構，步驟等）
需要對現有的業務體系，進行一定的調整
數據刷新問題的處理，確保數據的“新鮮度”
應用系統的計算資源佔用。有人提出ETag的MD5計算帶來了對應的應用系統的CPU佔用問題。這個需要說一下：
- 這取決於具體請求本身是否有比MD5計算更大的CPU佔用問題。
- 合理的緩存架構設計一般不會有這樣的問題（如靜態資源等CPU佔用少的請求，根本就在前面的瀏覽器，CDN，負載均衡層處理掉了）

實際應用

實際應用部分，主要有兩點需要提及。

由於If-None-Match的部分缺點，有需要的小夥伴最好引入Last-Modified-Since搭配使用
實際開發方面，Spring提供了ShallowEtagHeaderFilter()，也可以自行擴展

PS：部分人認爲只需要Last-Modified-Since即可，但是僅使用Last-Modified-Since存在以下問題：

1s週期內的變化，無法處理（因爲Last-Modified-Since記錄的最小時間單位爲秒）
部分數據雖然發生了變化，但其實我們所需要的內容並沒有變化（如週期性的重寫等）
部分應用系統的系統時間存在衝突（即集羣內的應用服務器實例的絕對系統時間存在秒級差別。至於集羣的時間統一相關的問題，日後有機會專門寫一篇博客（感覺自己立下了無數flag））。

ThreadLocal

ThreadLocal是什麼，我就不在此解釋了。不瞭解的小夥伴，可以這樣理解：ThreadLocal就是一個類中的靜態Map，其key就是執行線程（調用類實例的線程）的name，而value就是調用位置設置的值。

優勢

（核心）避免接口定義污染。如應用系統中（同一JVM中）存在A->B->C這樣的操作鏈路。但只有A和C用到了特定參數（如用戶信息），那麼爲了能夠調用C，B也必須引入該特定參數（如用戶參數），即使B沒有用到該特定參數。這就造成了接口定義的污染（詳見線程級緩存ThreadLocalCache）
數據緩存。由於ThreadLocal是通過棧封閉的理念實現了線程安全，所以其在一些場景下有着特定的使用。

缺點

ThreadLocal緩存設計與學習，及原有系統的改動
（核心）由於可能涉及多線程與調用鏈上多個調用節點，所以設計與問題排查會有較大的難度

實際應用

在我之前接收的IOT項目中，終端系統通過傳感器數據讀取程序與傳感器配置，獲得原始數據（包括原始監測值，以及配置表中對應配置（如硬件標識，報警閾值等））。但是原始數據採集後，會進行數據清洗，數據報警評估，數據保存等多個操作。但是其中的數據清洗並不涉及硬件標識，與報警閾值等。所以採用ThreadLocal來保存對應數據（硬件配置），避免方法接口的污染。當然，後來由於該流程並不都是有前後順序要求，所以添加了事件監聽，進行異步解耦，降低系統複雜度。

GuavaCache

Guava代表着應用級緩存，更準確說是單JVM實例緩存。在原單機系統時，我們往往並不是採用Redis這樣的分佈式緩存（除非是希望利用其數據處理，如GEO處理，集合處理等），而是採用GuavaCache或自定義緩存（自定義緩存的設計，後面會有一篇專門的博客）。

優勢

資源佔用小。畢竟只是運行於單機的一種緩存工具
實現了一種簡便的緩存管理工具，滿足了大多數單機系統對緩存的需求

劣勢

功能沒有分佈式緩存中間件完善（尤其是自定義的緩存工具）
如果是採用Guava這樣的第三方緩存工具，需要對工具的一定學習成本
如果是自定義實現（爲了更爲精簡，定製化），往往性能的提高對技術水平有着一定的需求（如SoftReference的利用等）
對原有應用的改變

外部緩存

外部緩存的一個重要代表，就是Redis，Memcache這樣的分佈式緩存中間件。當然外部緩存，你要把文件系統等劃分進來，也不是不行，只要可以滿足對緩存的定義即可。

這裏以Redis爲例。

Redis

Redis作爲當下最爲流行的分佈式緩存中間件，其應用可以說是非常廣泛的，也是我非常喜歡使用的一種分佈式緩存中間件。其是一個開源的，C語言編寫的，基於內存，支持持久化的日誌型，KV型的網絡程序。

優點

使用簡單。Redis的單機使用不要太簡單。即使是新人，也可以在很短的時間內上手，並在實際開發中應用（當然，如果項目中已經有了相關配置，並提供了相關Util就更方便了）
性能強悍。即使是單機的Redis，也可以在一個普通性能的服務器上，提供每秒十萬級的讀寫能力（當然影響的情況很多，詳見redis的BenchMark）
功能強大。Redis提供了GEO的相關操作（計算兩點距離等），集合相關操作（交集，並集等），流相關操作（類似消息隊列）
應用場景多。如Session服務器（分佈式Session的優秀解決方案），計數器（Incr），分佈式鎖等

缺點

需要部署Redis服務器。並且爲了確保可用性，往往需要進行集羣部署
精通較難。
- 功能方面。功能強大的Redis，其內部實現還是有不少東西的，包括其持久化機制，內存管理
- 理論方面。如Redis內存管理方面，涉及LRU，LFU算法，以及其自定義簡化版的實現。又或者其哨兵機制涉及的Raft分佈式選舉算法等
- 部署方面。單機部署，以及多種集羣部署（生產級部署，可以看我之前的博客-Redis安裝（單機及各類集羣，阿里雲））

實際應用

在我之前接手過的某綜合系統（涵蓋社交，在線教育，直播等），其Session服務器是通過Redis進行支撐的。通過將<SessionId,Session>的方式，存儲在Redis，而SeesionId會保存在用戶的Cookie中（至於某些小夥伴擔心的Cookie禁用問題，這就涉及Cookie的知識內容了。Cookie會保存在URL中）

再舉一個例子（Redis的應用場景太多了）。之前負責的IOT項目中，其中控系統的報警模塊有這麼一個需求：同一個終端的同一個傳感器在30min中，只報警一次，避免報警刷屏的現象。而中控系統已經採用了Redis（中控系統是可以集羣部署，確保可用性，避免性能瓶頸），所以利用Redis的集合特性與expire特性，進行了對應的緩存設計。這個在之後會專門寫一篇博客，進行闡述。

數據庫緩存

這裏說的數據庫，是指Mysql，Oracle這樣的數據庫，而不是Redis這樣的。

這裏就以Mysql舉例，這個大家應該是最熟悉的。

Mysql

Mysql緩存機制，就是緩存sql文本，及其對應的緩存結果，通過KV形式保存到Mysql服務器內存中。之後Mysql服務器，再次遇到同樣的sql語句，就會從緩存中直接返回結果，而不需要再進行sql解析，優化，執行。

可能某些人擔心，如果數據改變了，而請求的語句是select * from xxx，那不就一直拿到舊數據了嘛。放心，mysql有這方面的處理，當對應表的數據有所修改，那麼使用了這個表的數據的緩存就全部失效。所以對於經常變動的數據表，緩存並沒有太大價值。

優勢

提升性能。同樣的語句，第一次執行可能需要1s，而第二次執行往往只需要幾毫秒。
避免索引時間。因爲是通過請求的sql，直接從緩存中獲取對應結果，所以沒有進行索引查詢操作。
降低數據庫磁盤操作。雖然請求到達了數據庫，但如果沒有進行硬盤操作（尋道，讀取數據等），那麼該次數據庫操作對數據庫的資源消耗就小了許多（因爲在數據庫中最消耗時間的就是索引操作與硬盤操作）
降低數據庫資源消耗，提高查詢時間。因爲其避免了數據庫獲得sql後的所有操作，取而代之的是從緩存獲取數據（一個KV讀取操作，資源消耗可以幾乎可以忽略了）

缺點

mysql緩存的應用，及配置需要足夠的專業知識（一般的後端並不會非常深入這個層次，往往需要專門的DBA進行處理）
mysql緩存的判斷規則不夠智能，提高了查詢緩存的使用門檻，降低了其效率
mysql緩存的檢查與清理需要佔用一定資源
mysql緩存的內存管理不夠完善，會產生一定內存碎片（貌似mysql並不是直接採用數據庫的內存，就像JVM一樣。如果有不同意見的，可以私信或@我。畢竟我並不擅長數據庫，雖然剛接手的工作是進行數據庫中間件開發。囧）

擴展

較爲深入的mysql查詢緩存解釋，詳見MySQL查詢緩存的優缺點
參數設置，詳見mysql 緩存

實際應用

在我之前接收的IOT項目中，無論是終端系統，還是中控系統，往往都存在大數據量的數據查詢，單次的數據查詢往往涉及萬級，十萬級數據的查詢，並且可能頻繁查詢（就是多次刷新頁面數據）。

一方面，我通過批量寫入（降低數據庫連接的佔用頻次），降低數據庫對應數據表的修改頻次（從原來的幾秒一次，變爲一分鐘一次）。另一方面，進行數據庫緩存相關配置，確保在一分鐘內的數據庫不需要進行索引操作與硬盤操作，直接返回內存內的結果。從而有效提高了前端頁面數據展示效果。

當然後續，我爲了針對這一特定業務場景與需求，對業務稍做了調整，從而大大提高了數據查詢效果，大幅降低應用系統資源消耗（這個我會專門寫一篇博客，甚至專門開一個系列，用來描寫這種粒度的特定業務場景的方案設計）。

布隆過濾器

之前有人私信我，認爲布隆過濾器應該歸類於緩存架構的一部分。

我開始認爲這有一定道理，因爲布隆過濾器確實涉及數據的緩存，它需要以往數據的記錄，來實現。但是後來我想了想，布隆過濾器並不應該劃分爲緩存中，因爲布隆過濾器是基於緩存的，應用緩存的。就像你可以說Redis緩存屬於緩存架構的一部分，但是你不可以說調用緩存的應用服務器屬於緩存。所以最終，我並沒有將布隆過濾器劃分爲緩存的一部分。而是將它作爲一種非常有意思的過濾器，一種限流方式，一種安全手段等。

不過作爲擴展，這裏簡單說一下布隆過濾器。說白了，就是利用Hash的散列映射特性，進行數據過濾。如我在應用中設置一個數組Array（其所有值都爲0），其長度爲固定的10W。我針對每個用戶計算一個hash值，並將這個hasn值對10W進行取餘操作，獲得index值（如1000）。我將Array中第index位置的value設置爲1。這樣放在生產環境後，如果有一個用戶，其計算出來的index在Array中對應位置的值爲0，則說明這個用戶在系統中不存在（當然，如果是1，也並不能就說明其就是系統的用戶，畢竟存在哈希衝突與取餘衝突，不過概率較低）。通過這樣的手段，有效避免無效請求等。

後續可能會專門寫一篇有關布隆過濾器的博客。

總結

以上就是緩存架構相關的知識了。當然，這些知識都是粒度比較大的，雖然我舉了一些實際例子，但是需要大家針對具體應用場景，進行調整應用。另外，這些知識都是比較通用的。可能在特定業務場景下，還有一些方案沒有列在這裏。最後，沒有最好的技術，只有最合適的技術。這裏的許多技術都需要一定的業務規模（數據量，請求數，併發量等），採用比較好的性價比，需要大家仔細考慮。

如果有什麼問題或者想法，可以私信或@我。

願與諸君共進步。

參考

血夜之末

發佈了14 篇原創文章 · 獲贊 1 · 訪問量 1248

私信關注