MySQL之B+樹詳解

理論是灰色的，實踐之樹長青🌲 ——恩格斯

概述

MySql這樣的關係型數據庫在查詢方面有一些重要特性，是KV型的數據庫或者緩存所不具備的，比如：
（1）範圍查詢。
（2）前綴匹配模糊查詢。
（3）排序和分頁。
這些特性的支持，要歸功於B+樹這種數據結構。下面我們來分析一下B+樹是如何支持這些特性的。

邏輯結構

這裏我們拿數據庫主鍵對應的B+樹邏輯結構來說明，這個結構有幾個關鍵特性：

在葉子節點一層，所有記錄的主鍵按照從小到大的順序排列，並且形成了一個雙向鏈表。葉子節點的每一個Key指向一條記錄。
非葉子節點取的是葉子節點裏面Key的最小值。這意味着所有非葉子節點的Key都是冗餘的葉子節點。同一層的非葉子節點也互相串聯，形成了一個雙向鏈表。

下面的結構圖可以更好的說明這兩個特性：

基於這樣一個數據結構以上特性就更好說明了：

範圍查詢：比如要查主鍵在[1,17]之間的記錄。二次查詢，先查找 1所在的葉子節點的記錄位置，再查找17所在的葉子節點記錄的位置（就是16所處的位置），然後順序地從1遍歷鏈表直到16所在的位置。
前綴匹配模糊查詢：假設主鍵是一個字符串類型，要查詢where Key like abc%，其實可以轉化成一個範圍查詢Key in [abc,abcz]。當然，如果是後綴匹配模糊查詢，或者諸如where Key like %abc%這樣的中間匹配，則沒有辦法轉化成範圍查詢，只能挨個遍歷。
排序與分頁：葉子節點天然是排序好的，支持排序和分頁。

另外，基於B+樹的特性，會發現對於offset這種特性，其實是用不到索引的。比如每頁顯示10條數據，要展示第101頁，通常會寫成select xxx where xxx limit 1000, 10，從offset = 1000的位置開始取10條。雖然只取了10條數據，但實際上數據庫要把前面的1000條數據都遍歷才能知道 offset =1000的位置在哪。對於這種情況，合理的辦法是不要用offset，而是把offset = 1000的位置換算成某個max_id，然後用where 語句實現，就變成了select xxx where xxx and id > max_id limit 10，這樣就可以利用B+樹的特性，快速定位到max_id所在的位置，即是 offset=1000所在的位置。

物理結構

上面的樹只是一個邏輯結構，最終要存儲到磁盤上。下面就以 MySQL中最常用的InnoDB引擎爲例，看一下如何實現B+樹的存儲。

對於磁盤來說，不可能一條條地讀寫，而都是以“塊”爲單位進行讀寫的。InnoDB默認定義的塊大小是16KB，通過innodb_page_size參數指定。這裏所說的“塊”，是一個邏輯單位，而不是指磁盤扇區的物理塊。塊是InnoDB讀寫磁盤的基本單位，InnoDB每一次磁盤I/O，讀取的都是 16KB的整數倍的數據。無論葉子節點，還是非葉子節點，都會裝在 Page裏。InnoDB爲每個Page賦予一個全局的32位的編號，所以InnoDB 的存儲容量的上限是64TB（2^30×16KB）。

16KB是一個什麼概念呢？如果用來裝非葉子節點，一個Page大概可以裝1000個Key（16K，假設Key是64位整數，8個字節，再加上各種其他字段），意味着B+樹有1000個分叉；如果用來裝葉子節點，一個 Page大概可以裝200條記錄（記錄和索引放在一起存儲，假設一條記錄大概100個字節）。基於這種估算，一個三層的B+樹可以存儲多少數據量呢？如圖下圖所示：

第一層：一個節點是一個Page，裏面存放了1000個Key，對應1000 個分叉。
第二層：1000個節點，1000個Page，每個Page裏面裝1000個Key。
第三層：1000×1000個節點（Page），每個Page裏面裝200條記錄，即是1000×1000×200 =2億條記錄，總容量是16KB×1000×1000，約16GB。

把第一層和第二層的索引全裝入內存裏，即（1+1000）×16KB，也即約16MB的內存。三層B+樹就可以支撐2億條記錄，並且一次基於主鍵的等值查詢，只需要一次I/O（讀取葉子節點）。由此可見B+樹的強大！

基於Page，最終整個B+樹的物理存儲類似下圖所示：

Page與Page之間組成雙向鏈表，每一個Page頭部有兩個關鍵字段：前一個Page的編號，後一個 Page 的編號。Page 裏面存儲一條條的記錄，記錄之間用單向鏈表串聯，最終所有的記錄形成上面所示的雙向鏈表的邏輯結構。對於記錄來說，定位到了Page，也就定位到了Page裏面的記錄。因爲Page會一次性讀入內存，同一個Page裏面的記錄可以在內存中順序查找。

在InnoDB的實踐裏面

其中一個建議是按主鍵的自增順序插入記錄，就是爲了避免Page Split問題。比如一個Page裏依次裝入了Key爲（1,3,5,9）四條記錄，並且假設這個Page滿了。接下來如果插入一個 Key =4的記錄，就不得不建一個新的Page，同時把（1,3,5,9）分成兩半，前一半（1,3,4）還在舊的Page中，後一半（5,9）拷貝到新的Page 裏，並且要調整Page前後的雙向鏈表的指針關係，這顯然會影響插入速度。但如果插入的是Key = 10的記錄，就不需要做Page Split，只需要建一個新的Page，把Key = 10的記錄放進去，然後讓整個鏈表的最後一個 Page指向這個新的Page即可。

另外一個點，如果只是插入而不硬刪除記錄（只是軟刪除），也會避免某個Page的記錄數減少進而發生相鄰的Page合併的問題。

非主鍵索引

對於非主鍵索引，同上面類似的結構，每一個非主鍵索引對應一顆 B+樹。在InnoDB中，非主鍵索引的葉子節點存儲的不是記錄的指針，而是主鍵的值。所以，對於非主鍵索引的查詢，會查詢兩棵B+樹，先在非主鍵索引的B+樹上定位主鍵，再用主鍵去主鍵索引的B+樹上找到最終記錄。

有一點需要特別說明：對於主鍵索引，一個Key只會對應一條記錄；但對於非主鍵索引，值可以重複。所以一個Key可能對應多條記錄，如下表所示。假設對於字段1建立索引（字段1是一個字符類型），一個A會對應1,5,7三條記錄，C對應8、12兩條記錄。這反映在 B+樹的數據結構上面就是其葉子節點、非葉子節點的存儲結構，會和主鍵索引的存儲結構稍有不同。

主鍵ID	字段1（非主鍵索引）	其他字段
1	A
5	A
7	A
8	C
10	B
12	C

非主鍵索引的B+樹結構如下圖所示：

首先，每個葉子節點存儲了主鍵的值；對於非葉子節點，不僅存儲了索引字段的值，同時也存儲了對應的主鍵的最小值。

參考書籍：《軟件架構設計》
個人github賬號：https://github.com/SpecialAll
歡迎一起交流學習！

MySQL之B+樹詳解

概述

邏輯結構

物理結構

非主鍵索引

高併發系統限流算法詳解

Rabbitmq安裝教程（Deepin15.11）

Java基本數據（short和int的轉換問題）

Kubernetes之Pod對象生命週期

JVM調優工具總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結