mysql索引底層原理分析

大家都知道索引的重要性，基本用法在上章《最全面的mysql索引知識大盤點》已分享過，本章主要是探索索引的底層實現原理。當然了，我們還是以mysql爲基準進行探討。

首先了解索引之前，我們先要了解個事情，innodb和myisam的區別？當然也是淺談下，

	InnoDB	MyISAM
簡介	由Innobase Oy公司開發。支持事務安全的引擎，支持外鍵、行鎖、事務是他的最大特點。如果有大量的update和insert，建議使用InnoDB，特別是針對多個併發和QPS較高的情況。	默認表類型，它是基於傳統的ISAM類型，ISAM是Indexed Sequential Access Method (有索引的順序訪問方法) 的縮寫，它是存儲記錄和文件的標準方法。不是事務安全的，而且不支持外鍵，如果執行大量的select，insert MyISAM比較適合。
使用場景	在線事務處理(OLTP)型應用	在線分析處理(OLAP) 型應用
鎖差異	Innodb支持事務和行級鎖，是innodb的最大特色。事務的ACID屬性，併發事務帶來的幾個問題：更新丟失，髒讀，不可重複讀，幻讀。事務隔離級別：未提交讀(Read uncommitted)，已提交讀(Read committed)，可重複讀(Repeatable read)，可序列化(Serializable)	myisam只支持表級鎖，用戶在操作myisam表時，select，update，delete，insert語句都會給表自動加鎖，如果加鎖以後的表滿足insert併發的情況下，可以在表的尾部插入新的數據。也可以通過lock table命令來鎖表，這樣操作主要是可以模仿事務，但是消耗非常大，一般只在實驗演示中使用。
數據庫文件差異	innodb屬於索引組織表 innodb有兩種存儲方式，共享表空間存儲和多表空間存儲兩種存儲方式的表結構和myisam一樣，以表名開頭，擴展名是.frm。如果使用共享表空間，那麼所有表的數據文件和索引文件都保存在一個表空間裏，一個表空間可以有多個文件，通過innodb_data_file_path和innodb_data_home_dir參數設置共享表空間的位置和名字，一般共享表空間的名字叫ibdata1-n。如果使用多表空間，那麼每個表都有一個表空間文件用於存儲每個表的數據和索引，文件名以表名開頭，以.ibd爲擴展名。	myisam屬於堆表 myisam在磁盤存儲上有三個文件，每個文件名以表名開頭，擴展名指出文件類型。 .frm 用於存儲表的定義 .MYD 用於存放數據 .MYI 用於存放表索引 myisam表還支持三種不同的存儲格式：靜態表(默認，但是注意數據末尾不能有空格，會被去掉) 動態表壓縮表
索引差異	1、關於自動增長 myisam引擎的自動增長列必須是索引，如果是組合索引，自動增長可以不是第一列，他可以根據前面幾列進行排序後遞增。 innodb引擎的自動增長列必須是索引，如果是組合索引也必須是組合索引的第一列。 2、關於主鍵 myisam允許沒有任何索引和主鍵的表存在， myisam的索引都是保存行的地址。 innodb引擎如果沒有設定主鍵或者非空唯一索引，就會自動生成一個6字節的主鍵(用戶不可見) innodb的數據是主索引的一部分，附加索引保存的是主索引的值。 3、關於count()函數 myisam保存有表的總行數，如果select count() from table;會直接取出出該值 innodb沒有保存表的總行數，如果使用select count() from table；就會遍歷整個表，消耗相當大，但是在加了wehre 條件後，myisam和innodb處理的方式都一樣。 4、全文索引 myisam支持 FULLTEXT類型的全文索引 innodb不支持FULLTEXT類型的全文索引，但是innodb可以使用sphinx插件支持全文索引，並且效果更好。（sphinx 是一個開源軟件，提供多種語言的API接口，可以優化mysql的各種查詢） 5、delete from table 使用這條命令時，innodb不會從新建立表，而是一條一條的刪除數據，在innodb上如果要清空保存有大量數據的表，最好不要使用這個命令。(推薦使用truncate table，不過需要用戶有drop此表的權限) 6、索引保存位置 myisam的索引以表名+.MYI文件分別保存。 innodb的索引和數據一起保存在表空間裏

1.物理磁盤知識

首先dbms本身就是一個文件管理系統，只是它的實現方式確實比較複雜，但本質上是要通過訪問磁盤才能完成數據的存儲與檢索。本着刨根問底的精神，就要分析文件是存儲及檢索的。

1.1基本概念

盤片	硬盤中一般會有多個盤片組成，盤片一般用鋁合金材料做基片硬盤的盤片組在 2-14 片不等，通常有 2-3 個盤片
盤面	一個盤片都有上下兩個盤面，一般每個盤面都會得到利用，都可以存儲數據，成爲有效盤面，也有極個別的硬盤盤面數爲單數，每一個有效盤面都有一個盤面號，按順序從上至下從 0 開始編號
磁頭	每一個有效盤面都有一個對應的讀寫磁頭，作用就是將存儲在硬盤盤片上的磁信息轉化爲電信號向外傳輸工作原理則是利用特殊材料的電阻值會隨着磁場變化的原理來讀寫盤片上的數據。磁頭是用線圈纏繞在磁芯上製成的。硬盤在工作時，磁頭通過感應旋轉的盤片上磁場的變化來讀取數據；通過改變盤片上的磁場來寫入數據。爲避免磁頭和盤片的磨損，在工作狀態時，磁頭懸浮在高速轉動的盤片上方，而不與盤片直接接觸，只有在電源關閉之後，磁頭會自動回到在盤片上的固定位置（稱爲着陸區，此處盤片並不存儲數據，是盤片的起始位置）。
磁道	磁盤在格式化時盤面被劃分成許多同心圓，這些同心圓軌跡叫做磁道，而磁帶的磁道是沿磁帶長度方向的直線，這些磁道用肉眼是根本看不到的。磁道從外向內從0開始順序編號，每一個盤面有 300-1024 個磁道，新式大容量硬盤每面的磁道數更多，信息以脈衝串的形式記錄在這些軌跡中，這些同心圓不是連續記錄數據，而是被劃分成一段段的圓弧。當磁盤旋轉時，磁頭若保持在一個位置上，則每個磁頭都會在磁盤表面劃出一個圓形軌跡，這些圓形軌跡就叫做磁道
柱面	所有盤面上的同一磁道（具有相同編號磁道）構成一個圓柱，通常稱作柱面。每個圓柱上的磁頭由上而下從 0 開始編號，數據的讀 / 寫按柱面進行，只有在同一柱面所有的磁頭全部讀 / 寫完畢後磁頭才轉移到下一柱面。選取磁頭只需要通過電子切換即可，而選取柱面則必須機械切換，電子切換相當快。
扇區	每個磁道被等分爲若干個弧段，這些弧段便是硬盤的扇區，扇區是硬盤的最小讀寫單元。操作系統以扇區形式將信息存儲在硬盤上，每個扇區包括512個字節的數據和一些其他信息，一個扇區有兩個主要部分：存儲數據地點的標識符和存儲數據的數據段。標識符就是扇區頭標，包括組成扇區三維地址的三個數字：盤面號，柱面號，扇區號（塊號）。數據段可分爲數據和保護數據的糾錯碼（ECC）。
磁盤塊/簇	虛擬出來的，塊是操作系統中最小的邏輯存儲單位，操作系統與磁盤打交道的最小單位是磁盤塊。通俗的來講，在Windows下如NTFS等文件系統中叫做簇；在Linux下如Ext4等文件系統中叫做塊（block）。每個簇或者塊可以包括2、4、8、16、32、64…2的n次方個扇區讀取方便：由於扇區的數量比較小，數目衆多在尋址時比較困難，所以操作系統就將相鄰的扇區組合在一起，形成一個塊，再對塊進行整體的操作。分離對底層的依賴：操作系統忽略對底層物理存儲結構的設計。通過虛擬出來磁盤塊的概念，在系統中認爲塊是最小的單位。
Page	操作系統經常與內存打交道的最小單位是頁，類似於“塊”的概念，都需要一種虛擬的基本單位。

磁盤容量計算

存儲容量＝磁頭數 × 磁道(柱面)數 × 每道扇區數 × 每扇區字節數

某磁盤是一個 3個圓盤6個磁頭，7個柱面（每個盤片7個磁道）的磁盤，每條磁道有12個扇區，所以此磁盤的容量爲：6 * 7 * 12 * 512 = 258048

1.2硬盤中的數據

信息存儲在硬盤裏，硬盤是由很多的盤片組成，通過盤片表面的磁性物質來存儲數據。
把盤片放在顯微鏡下放大，可以看到盤片表面是凹凸不平的，凸起的地方被磁化，代表數字 1，凹的地方沒有被磁化，代表數字 0，因此硬盤可以通過二進制的形式來存儲表示文字、圖片等的信息。
所有的盤片都固定在一個旋轉軸上，這個軸即盤片主軸，所有的盤片之間是絕對平行的，在每個盤片的盤面上都有一個磁頭，磁頭與盤片之間的距離比頭髮絲的直徑還小。
所有的磁頭連在一個磁頭控制器上，由磁頭控制器負責各個磁頭的運動，磁頭可沿盤片的半徑方向移動，實際上是斜切運動，每個磁頭同一時刻必須是同軸的，即從正上方往下看，所有磁頭任何時候都是重疊的。
由於技術的發展，目前已經有多磁頭獨立技術了，在此不考慮此種情況。
盤片以每分鐘數千轉到上萬轉的速度在高速運轉，這樣磁頭就能對盤片上的指定位置進行數據的讀寫操作。
由於硬盤是高精密設備，塵埃是其大敵，所以必須完全密封。

1.3磁盤的讀寫原理

系統將文件存儲到磁盤上時，按柱面、磁頭、扇區的方式進行，即最先是第1磁道的第一磁頭下的所有扇區，然後是同一柱面的下一個磁頭……
一個柱面存儲滿後就推進到下一個柱面，直到把文件內容全部寫入磁盤。
系統也以相同的順序讀出數據，讀出數據時通過告訴磁盤控制器要讀出扇區所在柱面號、磁頭號和扇區號（物理地址的三個組成部分）進行。

注：操作系統讀取同理，只是顆粒的更大的塊操作

1.5磁盤的讀取響應時間

當需要從磁盤讀取數據的時候，系統會將數據的邏輯地址傳遞個磁盤，磁盤的控制電路按照尋址邏輯將邏輯地址翻譯成物理地址，即確定要讀的數據在哪個磁道，哪個扇區。

首先必須找到柱面，即磁頭需要移動對準相應磁道，這個過程叫做尋道。

然後目標扇區旋轉到磁頭下，即磁盤旋轉將目標扇區旋轉到磁頭下。

尋道（時間）：磁頭移動定位到指定磁道所需要的時間，尋道時間越短，I/O操作越快，目前磁盤的平均尋道時間一般在3－15ms，一般都在10ms左右。

旋轉延遲（時間）：盤片旋轉將請求數據所在扇區移至讀寫磁頭下方所需要的時間，旋轉延遲取決於磁盤轉速。普通硬盤一般都是7200rpm，慢的5400rpm。

數據傳輸（時間）：數據在磁盤與內存之間的實際傳輸所需要的時間。

確定磁盤地址（柱面號，磁頭號，扇區號），內存地址（源/目）：
爲了讀取這個扇區的數據，需要將磁頭放到這個扇區上方，爲了實現這一點：
即一次訪盤請求（讀 / 寫）完成過程由三個動作組成：

注：讀寫一次磁盤信息所需的時間中軟件應着重考慮減少尋道時間和延遲時間。

1.6 I/O 的預讀原理

由於存儲介質的特性，磁盤本身存取就比主存慢很多，再加上機械運動耗費的時間，磁盤的存取速度往往是主存的幾百分之一。

因此，計算機科學中著名的局部性原理：

當一個數據被用到時，其附近的數據一般來說也會被馬上使用。
程序運行期間所需要的數據通常比較集中。
由於磁盤順序讀取的效率很高（不需要尋道時間，只需要很少的旋轉時間），因此對於具有局部性的程序來說，預讀可以提高 I/O 效率。

預讀的長度一般爲頁（在許多操作系統中，頁的大小通常爲 4k）的整數倍。操作系統以內存頁爲單位管理內存，內存頁的大小對系統性能有影響。當程序要讀取的數據不在主存中時，會觸發一個缺頁異常，此時系統會向磁盤發出讀盤信息，磁盤會找到數據的起始位置並向後連續讀取一頁或幾頁的數據載入內存中，然後異常返回，程序繼續運行。

2.推理並拆解普通查詢語句

select * from talbe_name where id=1

step1：找到數據文件

step2：讀取數據文件

step3：讀取id=1的數據

理論上是這樣的，
索引是一種用來實現高效獲取數據的數據結構，建索引的目的是爲了查找的優化，特別是當數據很龐大的時候，非常重要。一般的查找算法有順序查找、折半查找、快速查找等，但是每種查找算法只能應用於特定的數據結構，例如順序查找依賴於順序結構，折半查找通過二叉查找樹或紅黑樹實現二分搜索。因此在數據之外，數據庫系統還維護着滿足特定查找算法的數據結構，它以某種方式引用數據。

3.爲什麼要用B+Tree實現

目前大多數數據庫系統及文件系統都採用 B-Tree 或其變種 B+Tree 作爲索引結構。B+ 樹中的 B 代表平衡，而不是二叉。B+ 樹是從最早的平衡二叉樹演化而來的。B+ 樹是由二叉查找樹、平衡二叉樹（AVLTree）和平衡多路查找樹（B-Tree）逐步優化而來。

二叉查找樹：左子樹的鍵值小於根的鍵值，右子樹的鍵值大於根的鍵值。
AVL 樹：平衡二叉樹（AVL 樹）在符合二叉查找樹的條件下，還滿足任何節點的兩個子樹的高度最大差爲 1，但不是紅黑樹。
平衡多路查找樹（B-Tree）：爲磁盤等外存儲設備設計的一種平衡查找樹。

那麼糾結該如何選型呢？索引的標準：IO漸進複雜度，說白了就是推演過程（每個節點都是1次IO）

注：B-Tree就是我們常說的B樹，一定不要讀成B減樹，否則就很丟人了

系統從磁盤讀取數據時是以磁盤塊（block）爲基本單位的，位於同一磁盤塊中的數據會被一次性讀取出來，而不是按需讀取。

InnoDB 存儲引擎使用頁作爲數據讀取單位，頁是其磁盤管理的最小單位，默認 page 大小是 16k。系統的一個磁盤塊的存儲空間往往沒有這麼大，因此 InnoDB 每次申請磁盤空間時都會是若干地址連續磁盤塊來達到頁的大小 16KB。

InnDB 在把磁盤數據讀入到磁盤時會以頁爲基本單位，在查詢數據時如果一個頁中的每條數據都能助於定位數據記錄的位置，這將會減少磁盤 I/O 的次數，提高查詢效率。

3.1 B-Tree

B-Tree 結構的數據可以讓系統高效的找到數據所在的磁盤塊。

爲了描述 B-Tree，首先定義一條數據記錄爲一個二元組 [key, data]，key 爲記錄的鍵值，對於不同數據記錄，key 是互不相同的；data 爲數據記錄除 key 外的數據。

那麼m階 B-Tree 是滿足下列條件的數據結構：

每個節點最多擁有m個子樹
根節點至少有2個子樹
分支節點至少擁有m/2顆子樹（除根節點和葉子節點外都是分支節點）
所有葉子節點都在同一層、每個節點最多可以有m-1個key，並且以升序排列

每個節點佔用一個磁盤塊，一個節點上有兩個升序排序的關鍵字和三個指向子樹根節點的指針，指針存儲的是子節點所在磁盤塊的地址。兩個關鍵詞劃分成的三個範圍域對應三個指針指向的子樹的數據的範圍域。

以根節點爲例，關鍵字爲 17 和 35，P1 指針指向的子樹的數據範圍爲小於 17，P2 指針指向的子樹的數據範圍爲 17~35，P3 指針指向的子樹的數據範圍爲大於 35。模擬查找關鍵字 29 的過程：

根據根節點找到磁盤塊 1，讀入內存。【磁盤 I/O 操作第 1 次】
比較關鍵字 29 在區間（17,35），找到磁盤塊 1 的指針 P2。
根據 P2 指針找到磁盤塊 3，讀入內存。【磁盤 I/O 操作第 2 次】
比較關鍵字 29 在區間（26,30），找到磁盤塊 3 的指針 P2。
根據 P2 指針找到磁盤塊 8，讀入內存。【磁盤 I/O 操作第 3 次】
在磁盤塊 8 中的關鍵字列表中找到關鍵字 29。

MySQL 的 InnoDB 存儲引擎在設計時是將根節點常駐內存的，因此力求達到樹的深度不超過 3，也就是說 I/O 不需要超過 3 次，分析上面過程，發現需要 3 次磁盤 I/O 操作，和 3 次內存查找操作。由於內存中的關鍵字是一個有序表結構，可以利用二分法查找提高效率。而 3 次磁盤 I/O 操作是影響整個 B-Tree 查找效率的決定因素。

B-Tree 相對於 AVLTree 縮減了節點個數，使每次磁盤 I/O 取到內存的數據都發揮了作用，從而提高了查詢效率。

3.2 B+Tree

B+Tree 是在 B-Tree 基礎上的一種優化，InnoDB 存儲引擎就是用 B+Tree 實現其索引結構。

B-Tree主要有以下問題

每個節點中有key，也有data，而每一個頁的存儲空間是有限的，如果data數據較大時將會導致每個節點（即一個頁）能存儲的 key 的數量很小。
當存儲的數據量很大時同樣會導致 B-Tree 的深度較大，增大查詢時的磁盤 I/O 次數，進而影響查詢效率

在 B+Tree 中，所有數據記錄節點都是按照鍵值大小順序存放在同一層的葉子節點上，而非葉子節點上只存儲 key 值信息，這樣可以大大加大每個節點存儲的 key 值數量，降低 B+Tree 的高度，變化點：

數據是存在葉子節點中的
數據節點之間是有指針指向的

通常在B+Tree上有兩個頭指針，一個指向根節點，另一個指向關鍵字最小的葉子節點，而且所有葉子節點（即數據節點）之間是一種鏈式環結構。因此可以對 B+Tree 進行兩種查找運算：一種是對於主鍵的範圍查找和分頁查找，另一種是從根節點開始，進行隨機查找。

4.Mysql索引是如何實現的

4.1 InnoDB 中的 B+Tree

InnoDB 是通過 B+Tree 結構對 ID 建索引，然後在葉子節點中存儲記錄。採用 InnoDB 引擎的數據存儲文件有兩個，一個定義文件，一個是數據文件。

若建索引的字段不是主鍵 ID，則對該字段建索引，然後在葉子節點中存儲的是該記錄的主鍵，然後通過主鍵索引找到對應的記錄。

4.2 Myisam 中的 B+Tree

Myisam 引擎也是採用的 B+Tree 結構來作爲索引結構。由於 Myisam 中的索引和數據分別存放在不同的文件，所以在索引樹中的葉子節點中存的數據是該索引對應的數據記錄的地址，由於數據與索引不在一起，所以 Myisam 是非聚簇索引。

最後，喲沒有感覺不是那麼複雜了。

mysql索引底層原理分析

1.物理磁盤知識

1.1基本概念

1.2硬盤中的數據

1.3磁盤的讀寫原理

1.5磁盤的讀取響應時間

1.6 I/O 的預讀原理

2.推理並拆解普通查詢語句

3.爲什麼要用B+Tree實現

3.1 B-Tree

3.2 B+Tree

4.Mysql索引是如何實現的

4.1 InnoDB 中的 B+Tree

4.2 Myisam 中的 B+Tree

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

Nginx 的多進程異步模型要了解下麼

mysql 與sqlserver的鎖升級

徹底理解mysql innodb的死鎖

隨機讀寫之DirectIO

微服務交互模式：同步 & 異步 & 超時

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結