圖解|什麼是緩存系統三座大山

點擊上方藍色“後端技術學堂”關注後加個“星標”

最新分享第一時間看！

1.無處不在的緩存

緩存在計算機系統是無處不在，在CPU層面有L1-L3的Cache，在Linux中有TLB加速虛擬地址和物理地址的轉換，在瀏覽器有本地緩存、手機有本地緩存等。

可見，緩存在計算機系統中有非常重要的地位，其主要作用是提高響應速度、減少磁盤訪問等，本文主要討論在高併發系統中的緩存系統。

一句話概括緩存系統在高併發系統中的地位的話：如果高併發系統是烤羊肉串，那麼緩存系統就是那一撮孜然。

2.高併發系統中的緩存

2.1 緩存系統的作用

緩存系統在高併發系統的作用很大，在某種程度上可以說沒有緩存系統很難支撐高併發場景。

基於機械磁盤或SSD的數據庫系統，一般來說讀寫的速度遠慢於內存，因此單純磁盤介質的數據庫無法支撐很高的併發，可以簡單認爲緩存是保護磁盤數據庫的重要屏障。

對於一些基於LSM的存儲引擎數據庫來說，隨機寫改爲順序寫速度提升很大，但是隨機讀仍然是個問題，所以緩存系統是很有必要的。

2.2 緩存系統訪問流程

實際場景也是讀多寫少，看看請求是如何得到響應的，簡單看下交互流程：

請求到達之後，業務線程首先訪問緩存，如果緩存命中則返回
如果未命中則繼續請求磁盤數據庫系統，獲取數據返回
從磁盤獲取數據後將結果回寫到緩存系統且增加老化時間，爲下次請求做準備

以上是高併發系統中緩存和磁盤數據庫系統、客戶端請求之間的交互過程，後續的問題分析，也是基於此過程展開的。

3.緩存系統的三大問題

網絡上對於緩存三大問題的文章很多，提到的三個問題主要是：

緩存雪崩 Cache Avalanche
緩存穿透 Cache Penetration
緩存擊穿 Hotspot Invalid

對於上面的三個名詞我一直分不清楚，腦海中並沒有清晰的區別。

於是想到去谷歌看看歪果仁是怎麼說的，然而英文表述就是上面的英文，基本上和漢語翻譯是一樣的，所以只能強記，太難了。

3.1 緩存雪崩問題

所謂雪崩就是原來有所支撐的冰雪，某一瞬間失去依託，瞬間湧下來。

這個場景讓我想起了2011年上映的柯南劇場版《沉默的十五分鐘》，柯南在北澤村水庫爲了拯救村莊製造的雪崩：

可見雪崩確實很可怕，回到高併發系統，如果緩存系統故障，大量的請求無法從緩存完成數據請求，就全量洶湧衝向磁盤數據庫系統，導致數據庫被打死，整個系統徹底崩潰。

3.2 緩存雪崩解決方案

造成緩存雪崩的主要原因是緩存系統不夠高可用，因此提高緩存系統的穩定性和可用性十分必要，比如對於使用Redis作爲緩存的系統而言可以使用哨兵機制、集羣化、持久化等來提高緩存系統的HA。

除了保證緩存系統的HA之外，服務本身也需要支持降級，可以藉助比如Hystrix來實現服務的熔斷、降級、限流來降低出現雪崩時的故障程度。

說白了就是別讓服務徹底死掉就行，就像大雪封高速肯定不能通行了，堵車慢一些至少可以走。

3.3 緩存穿透問題

穿透形象一點就是：請求過來了轉了一圈一無所獲就像穿過透明地帶一樣。

在高併發系統中緩存穿透，如果一個req需要請求的數據在緩存中沒有，這時業務線程就會訪問磁盤數據庫系統，然而磁盤數據庫也沒有這個數據，無奈業務線程只能白白處理一圈。

如果某時段有大量惡意的不存在的key的集中請求，那麼服務將一直處理這些根本不存在的請求，導致正常請求無法被處理，從而出現問題。

舉個栗子：
拉麪館的服務員和廚師不允許拒絕已經進來的消費者，但是拉麪館的經營範圍有限。此時惡意消費者點了一隻5斤的澳洲龍蝦，經過服務員和廚師都無法響應這個需求，此時輪流來了1000個這樣的惡意消費者，拉麪館基本要歇菜了。

3.4 緩存穿透解決方案

有效甄別是否存在這個key再決定是否讀取很重要，常見的做法有：

把不存在的key寫一下null，這樣再來就相當於命中了，其實這種方法侷限性很大，今天是5斤龍蝦，明天改成6斤的螃蟹，緩存系統和數據庫中存儲大量無用key本身是無意義的，所以一般不建議
另外一種思路，轉換爲查找問題，類似於在海量數據中查找某個key是否存在，考慮空間複雜度和時間複雜度，一般選用布隆過濾器來實現。

布隆過濾器是個好東西，有非常多的用途，包括：垃圾郵件識別、搜索蜘蛛爬蟲url去重等，主要藉助K個哈希函數和一個超大的bit數組來降低哈希衝突本身帶來的誤判，從而提高識別準確性。

布隆過濾器也存在一定的誤判，假如判斷存在可能不一定存在，但是假如判斷不存在就一定不存在，因此剛好用在解決緩存穿透的key查找場景，事實上很多系統都是基於布隆過濾器來解決緩存穿透問題的。

3.5 緩存擊穿問題

緩存擊穿是這樣一種情況：

由於緩存系統中的熱點數據都有過期時間，如果沒有過期時間就造成了主存和緩存的數據不一致，因此過期時間一般都不會太長。

設想某時刻一批熱點數據同時在緩存系統中過期失效，那麼這部分數據就都將請求磁盤數據庫系統。

從描述上來看有點像微小規模的雪崩，但是對數據庫的壓力就很小了，只不過會影響併發性能，然而在多線程場景中緩存擊穿卻是經常發生的，相反緩存穿透和雪崩頻率不如緩存擊穿，因此研究擊穿的現實意義更大一些。

3.6 緩存擊穿解決方案

可以採用的方案大概有幾種：

在設置熱點數據過期時間時儘量分散，比如設置100ms的基礎值，在此基礎上正負浮動10ms，從而降低相同時刻出現CacheMiss的key的數量。
另外一種做法是多線程加鎖，其中第一個線程發現CacheMiss之後進行加鎖，再從數據庫獲取內容之後寫到緩存中，其他線程獲取鎖失敗則阻塞數ms之後再進行緩存讀取，這樣可以降低訪問數據數據庫的線程數，需要注意在單機和集羣需要使用不同的鎖，集羣環境使用分佈式鎖來實現，但是由於鎖的存在也會影響併發效率。
一種方法是在業務層對使用的熱點數據查看是否即將過期，如果即將過期則去數據庫獲取最新數據進行更新並延長該熱點key在緩存系統中的時間，從而避免後面的過期CacheMiss，相當於把事情提前解決了。

緩存擊穿的解決方法都有一定的權衡，實際中根據自己的需求來解決。

緩存擊穿的影響一般來說並不會太大，或許在你的服務跑了很久之後你才意識到會有緩存擊穿問題。

4.小結

緩存系統無論在實際工作中還是在面試中都是熱點內容，緩存系統目的是爲了讓訪問又準又快，不要一味追求緩存命中率，緩存和主數據庫的數據一致性是需要重點考慮的。

總起來說，如何在保證數據正確性的前提下提高緩存命中率就是核心問題。

如果覺得文章寫的還行，對你有所幫助，請不吝三連「在看、點贊、分享」，這是對我持續創作的最大支持。

今天的技術分享就到這裏，我們下期再見。

精選好文

別再說你不懂Linux內存管理了，10張圖給你安排的明明白白！

面試都在問的微服務，一文帶你徹底搞懂！

面試官：你說對MySQL事務很熟？那我問你10個問題

手把手教你配置VS Code遠程開發工具，工作效率提升N倍

帶你學夠浪：Go基礎系列-環境配置和 Hello world

關注公衆號「後端技術學堂」

帶你一起學編程

回覆「資源」送你編程學習大禮包

包括3個G的編程「學習資源」

我建了個學習交流羣，羣內不定期分享優質技術文章，一起學習一起進階，加下面我微信備註「進羣」我拉你加入

掃一掃，備註「進羣」

學會了嗎？在看分享了嗎

本文分享自微信公衆號 - 後端技術學堂（lemon10240）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

圖解|什麼是緩存系統三座大山

1.無處不在的緩存

2.高併發系統中的緩存

2.1 緩存系統的作用

2.2 緩存系統訪問流程

3.緩存系統的三大問題

3.1 緩存雪崩問題

3.2 緩存雪崩解決方案

3.3 緩存穿透問題

3.4 緩存穿透解決方案

3.5 緩存擊穿問題

3.6 緩存擊穿解決方案

4.小結

redis鎖怎麼實現？這 3 種常見方法你知道幾個

淺談大數據廣告下個人隱私保護，開發者視角的廣告原理

面試官讓我5分鐘內寫一個搶紅包程序，我和他說了半小時原理！

讀者福利：送噹噹購書優惠券，又可以薅羊毛了

圖解|什麼是緩存系統三座大山

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結