攜程二面：講講 MySQL 中的 WAL 策略和 CheckPoint 技術

前段時間我在準備暑期實習嘛，這是當時面攜程的時候二面的一道問題，我一臉懵逼，趕緊道歉，不好意思不知道沒了解過，面試官又解釋說 redo log，我尋思着 redo log 我知道啊，WAL 是啥？給面試官整無語了（滑稽），爲我當時的無知道歉。後來回去百度了一下才知道，最近又在丁奇大佬的《MySQL 實戰 45 講》中看到了 WAL，遂來寫篇文章總結下。

InnoDB 體系架構

在說 WAL 之前，有必要簡單介紹下 InnoDB 存儲引擎的體系架構，方便我們理解下文，並且 redo log 也是 InnoDB 存儲引擎所特有的。

如下圖，InnoDB 存儲引擎由內存池和一些後臺線程組成：

內存池

先來解釋下內存池。

首先，我們需要知道，InnoDB 存儲引擎是基於磁盤存儲的，並將其中的記錄按照頁的方式進行管理。因此可將其視爲基於磁盤的數據庫系統（Disk-base Database），在這樣的系統中，衆所周知，由於 CPU 速度與磁盤速度之間的不匹配，通常會使用緩衝池技術來提高數據庫的整體性能。

所以這裏的內存池也被稱爲緩衝池（簡單理解爲緩存就好了）。

具體來說，緩衝池其實就是一塊內存區域，在 CPU 與磁盤之間加入內存訪問，通過內存的速度來彌補磁盤速度較慢對數據庫性能的影響。

擁有了緩衝池後，“讀取頁” 操作的具體步驟就是這樣的：

首先將從磁盤讀到的頁存放在緩衝池中
下一次再讀相同的頁時，首先判斷該頁是否在緩衝池中。若在緩衝池中，稱該頁在緩衝池中被命中，直接讀取該頁。否則，讀取磁盤上的頁。

“修改頁” 操作的具體步驟就是這樣的：

首先修改在緩衝池中的頁；然後再以一定的頻率刷新到磁盤上。

所謂 ”髒頁“ 就發生在修改這個操作中，如果緩衝池中的頁已經被修改了，但是還沒有刷新到磁盤上，那麼我們就稱緩衝池中的這頁是 ”髒頁“，即緩衝池中的頁的版本要比磁盤的新。

至此，綜上所述，我們可以得出這樣的結論：緩衝池的大小直接影響着數據庫的整體性能。

後臺線程

後臺線程其實最大的作用就是用來完成 “將從磁盤讀到的頁存放在緩衝池中” 以及 “將緩衝池中的數據以一定的頻率刷新到磁盤上” 這倆個操作的，當然了，還有其他的作用。以下是《MySQL 技術內幕：InnoDB 存儲引擎 - 第 2 版》對於後臺線程的描述：

後臺線程的主要作用就是刷新內存池中的數據，保證內存池中緩存的是最近的數據；此外將已修改的數據文件刷新到磁盤文件，同時保證在數據庫發生異常的情況下 InnoDB 能恢復到正常運行狀態。

另外，InnoDB 存儲引擎是多線程的模型，也就是說它擁有多個不同的後臺線程，負責處理不同的任務。這裏簡單列舉下幾種不同的後臺線程：

Master Thread：主要負責將緩衝池中的數據異步刷新到磁盤，保證數據的一致性
IO Thread：在 InnoDB 存儲引擎中大量使用了 AIO（Async IO）來處理寫 IO 請求，這樣可以極大提高數據庫的性能。IO Thread 的工作主要是負責這些 IO 請求的回調（call back）處理
Purge Thread：回收已經使用並分配的 undo 頁
Page Cleaner Thread：將之前版本中髒頁的刷新操作都放入到單獨的線程中來完成。其目的是爲了減輕原 Master Thread 的工作及對於用戶查詢線程的阻塞，進一步提高 InnoDB 存儲引擎的性能

redo log 與 WAL 策略

上文我們提到，當緩衝池中的某頁數據被修改後，該頁就被標記爲 ”髒頁“，髒頁的數據會被定期刷新到磁盤上。

倘若每次一個頁發生變化，就將新頁的版本刷新到磁盤，那麼這個開銷是非常大的。並且，如果熱點數據都集中在某幾個頁中，那麼數據庫的性能將變得非常差。另外，如果在從緩衝池將頁的新版本刷新到磁盤時發生了宕機，那麼這個數據就不能恢復了。

所以，爲了避免發生數據丟失的問題，當前事務數據庫系統（並非 MySQL 所獨有）普遍都採用了 WAL（Write Ahead Log，預寫日誌）策略：即當事務提交時，先寫重做日誌（redo log），再修改頁（先修改緩衝池，再刷新到磁盤）；當由於發生宕機而導致數據丟失時，通過 redo log 來完成數據的恢復。這也是事務 ACID 中 D（Durability 持久性）的要求。

有了 redo log，InnoDB 就可以保證即使數據庫發生異常重啓，之前提交的記錄都不會丟失，這個能力稱爲 crash-safe。

舉個簡單的例子，假設你非常熱心且 rich 的，借出去了很多錢，但是你非常 old school，不會使用電子設備並且記性不太好，所以你用一個小本本記下了所有欠你錢的人的名字和具體金額。這樣，別人還你錢的時候，你就翻出你的小本本，一頁頁地找到他的名字然後把這次還的錢扣除掉。

但是呢，其實你平常是非常忙碌的，沒辦法隨時隨地翻小本本做記錄，因此你就想出了一個主意：每當有人還你錢的時候，你就在一張白紙上記下來，然後挑個時間對照小本本把白紙上的賬目都給清了。

這就是 WAL。白紙就是 redo log，小本本就是磁盤。

當然了，redo log 可不是白紙這麼簡單，一張用完了換一張就行了，這裏有必要詳細解釋下。

每個 InnoDB 存儲引擎至少有 1 個重做日誌文件組（ redo log group），每個文件組下至少有 2 個重做日誌文件（redo log file），默認的話是一個 redo log group，其中包含 2 個 redo log file：ib_logfile0 和 ib_logfile1 。

一般來說，爲了得到更高的可靠性，用戶可以設置多個鏡像日誌組（mirrored log groups），將不同的文件組放在不同的磁盤上，以此提高 redo log 的高可用性。在日誌組中每個 redo log file 的大小一致，並以循環寫入的方式運行。

所謂循環寫入，也就是爲啥我們說 redo log 不像白紙那樣用完一張換一張就行，舉個例子，如下圖，一個 redo log group，包含 3 個 redo log file：

InnoDB 存儲引擎會先寫 redo log file 0，當 file 0 被寫滿的時候，會切換至 redo log file 1，當 file 1 也被寫滿時，會切換到 redo log file 2 中，而當 file 2 也被寫滿時，會再切換到 file 0 中。

可以看出，redo log file 的大小設置對於 InnoDB 存儲引擎的性能有着非常大的影響：

redo log file 不能設置得太大，如果設置得很大，在恢復時可能需要很長的時間
redo log file 又不能設置得太小了，否則可能導致一個事務的日誌需要多次切換重做日誌文件

CheckPoint 技術

有了 redo log 就可以高枕無憂了嗎？顯然不是這麼簡單，我們仍然面臨這樣 3 個問題：

1）緩衝池不是無限大的，也就是說不能沒完沒了的存儲我們的數據等待一起刷新到磁盤

2）redo log 是循環使用而不是無限大的（也許可以，但是成本太高，同時不便於運維），那麼當所有的 redo log file 都寫滿了怎麼辦？

3）當數據庫運行了幾個月甚至幾年時，這時如果發生宕機，重新應用 redo log 的時間會非常久，此時恢復的代價將會非常大。

因此 Checkpoint 技術的目的就是解決上述問題：

緩衝池不夠用時，將髒頁刷新到磁盤
redo log 不可用時，將髒頁刷新到磁盤
縮短數據庫的恢復時間

所謂 CheckPoint 技術簡單來說其實就是在 redo log file 中找到一個位置，將這個位置前的頁都刷新到磁盤中去，這個位置就稱爲 CheckPoint（檢查點）。

針對上面這三點我們依次來解釋下：

1）縮短數據庫的恢復時間：當數據庫發生宕機時，數據庫不需要重做所有的日誌，因爲 Checkpoint 之前的頁都已經刷新回磁盤。故數據庫只需對 Checkpoint 後的 redo log 進行恢復就行了。這顯然大大縮短了恢復的時間。

2）緩衝池不夠用時，將髒頁刷新到磁盤：所謂緩衝池不夠用的意思就是緩衝池的空間無法存放新讀取到的頁，這個時候 InnoDB 引擎會怎麼辦呢？LRU 算法。InnoDB 存儲引擎對傳統的 LRU 算法做了一些優化，用其來管理緩衝池這塊空間。

總的思路還是傳統 LRU 那套，具體的優化細節這裏就不再贅述了：即最頻繁使用的頁在 LRU 列表（LRU List）的前端，最少使用的頁在 LRU 列表的尾端；當緩衝池的空間無法存放新讀取到的頁時，將首先釋放 LRU 列表中尾端的頁。這個被釋放出來（溢出）的頁，如果是髒頁，那麼就需要強制執行 CheckPoint，將髒頁刷新到磁盤中去。

3）redo log 不可用時，將髒頁刷新到磁盤：

所謂 redo log 不可用就是所有的 redo log file 都寫滿了。但事實上，其實 redo log 中的數據並不是時時刻刻都是有用的，那些已經不再需要的部分就稱爲 ”可以被重用的部分“，即當數據庫發生宕機時，數據庫恢復操作不需要這部分的 redo log，因此這部分就可以被覆蓋重用（或者說被擦除）。

舉個例子來具體解釋下：一組 4 個文件，每個文件的大小是 1GB，那麼總共就有 4GB 的 redo log file 空間。write pos 是當前 redo log 記錄的位置，隨着不斷地寫入磁盤，write pos 也不斷地往後移，就像我們上文說的，寫到 file 3 末尾後就回到 file 0 開頭。CheckPoint 是當前要擦除的位置（將 Checkpoint 之前的頁刷新回磁盤），也是往後推移並且循環的：

write pos 和 CheckPoint 之間的就是 redo log file 上還空着的部分，可以用來記錄新的操作。如果 write pos 追上 CheckPoint，就表示 redo log file 滿了，這時候不能再執行新的更新，得停下來先覆蓋（擦掉）一些 redo log，把 CheckPoint 推進一下。

綜上所述，Checkpoint 所做的事情無外乎是將緩衝池中的髒頁刷新到磁盤。不同之處在於每次刷新多少頁到磁盤，每次從哪裏取髒頁，以及什麼時間觸發 Checkpoint。在 InnoDB 存儲引擎內部，有兩種 Checkpoint，分別爲：

Sharp Checkpoint：發生在數據庫關閉時將所有的髒頁都刷新回磁盤，這是默認的工作方式，參數 innodb_fast_shutdown=1
Fuzzy Checkpoin：InnoDB 存儲引擎內部使用這種模式，只刷新一部分髒頁，而不是刷新所有的髒頁回磁盤。關於 Fuzzy CheckPoint 具體的情況這裏就不再贅述了。

有了 bin log 爲什麼還需要 redo log？

前文我們講過，MySQL 架構可以分成倆層，一層是 Server 層，它主要做的是 MySQL 功能層面的事情；另一層就是存儲引擎，負責存儲與提取相關的具體事宜。

redo log 是 InnoDB 引擎特有的日誌，而 Server 層也有自己的日誌，包括錯誤日誌（error log）、二進制日誌（binlog）、慢查詢日誌（slow query log）、查詢日誌（log）。

其他三個日誌顧明思意都挺好理解的，需要解釋的就是 binlog（二進制日誌，binary log），它記錄了對 MySQL 數據庫執行更改的所有操作，但是不包括 SELECT 和 SHOW 這類操作，因爲這類操作對數據本身並沒有修改。也就是說，binlog 是邏輯日誌，記錄的是這個語句的原始邏輯，比如 “給 ID=1 這一行的 a 字段加 1”。

可以看出來，binlog 日誌只能用於歸檔，因此 binlog 也被稱爲歸檔日誌，顯然如果 MySQL 只依靠 binlog 等這四種日誌是沒有 crash-safe 能力的，所以爲了彌補這種先天的不足，得益於 MySQL 可插拔的存儲引擎架構，InnoDB 開發了另外一套日誌系統 — 也就是 redo log 來實現 crash-safe 能力。

這就是爲什麼有了 bin log 爲什麼還需要 redo log 的答案。

回顧下 redo log 存儲的東西，可以發現 redo log 是物理日誌，記錄的是 “在某個數據頁上做了什麼修改”。

另外，還有一點不同的是：binlog 是追加寫入的，就是說 binlog 文件寫到一定大小後會切換到下一個，並不會覆蓋以前的日誌；而 redo log 是循環寫入的。

本文分享自微信公衆號 - Java識堂（erlieStar）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

攜程二面：講講 MySQL 中的 WAL 策略和 CheckPoint 技術

InnoDB 體系架構

內存池

後臺線程

redo log 與 WAL 策略

CheckPoint 技術

有了 bin log 爲什麼還需要 redo log？

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

面試官：說一說你做過什麼項目

《面試八股文》之 Redis 16卷

分佈式事務最經典的七種解決方案

攜程二面：講講 MySQL 中的 WAL 策略和 CheckPoint 技術

面試官：說說Spring Boot自動裝配的原理唄！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結