數據庫索引

一、引言

對數據庫索引的關注從未淡出我的們的討論，那麼數據庫索引是什麼樣的？聚集索引與非聚集索引有什麼不同？希望本文對各位同仁有一定的幫助。有不少存疑的地方，誠心希望各位不吝賜教指正，共同進步。[最近首頁之爭沸沸揚揚，也不知道這個放在這合適麼，苦勞？功勞？……]

二、B-Tree

我們常見的數據庫系統，其索引使用的數據結構多是B-Tree或者B+Tree。例如，MsSql使用的是B+Tree，Oracle及Sysbase使用的是B-Tree。所以在最開始，簡單地介紹一下B-Tree。

B-Tree不同於Binary Tree（二叉樹，最多有兩個子樹），一棵M階的B-Tree滿足以下條件：
1）每個結點至多有M個孩子；
2）除根結點和葉結點外，其它每個結點至少有M/2個孩子；
3）根結點至少有兩個孩子（除非該樹僅包含一個結點）；
4）所有葉結點在同一層，葉結點不包含任何關鍵字信息；
5）有K個關鍵字的非葉結點恰好包含K+1個孩子；

另外，對於一個結點，其內部的關鍵字是從小到大排序的。以下是B-Tree（M=4）的樣例：

對於每個結點，主要包含一個關鍵字數組Key[]，一個指針數組（指向兒子）Son[]。在B-Tree內，查找的流程是：使用順序查找（數組長度較短時）或折半查找方法查找Key[]數組，若找到關鍵字K，則返回該結點的地址及K在Key[]中的位置；否則，可確定K在某個Key[i]和Key[i+1]之間，則從Son[i]所指的子結點繼續查找，直到在某結點中查找成功；或直至找到葉結點且葉結點中的查找仍不成功時，查找過程失敗。

接着，我們使用以下圖片演示如何生成B-Tree（M=4，依次插入1~6）：
從圖可見，當我們插入關鍵字4時，由於原結點已經滿了，故進行分裂，基本按一半的原則進行分裂，然後取出中間的關鍵字2，升級（這裏是成爲根結點）。其它的依類推，就是這樣一個大概的過程。

三、數據庫索引

1．什麼是索引

在數據庫中，索引的含義與日常意義上的“索引”一詞並無多大區別（想想小時候查字典），它是用於提高數據庫表數據訪問速度的數據庫對象。
A）索引可以避免全表掃描。多數查詢可以僅掃描少量索引頁及數據頁，而不是遍歷所有數據頁。
B）對於非聚集索引，有些查詢甚至可以不訪問數據頁。
C）聚集索引可以避免數據插入操作集中於表的最後一個數據頁。
D）一些情況下，索引還可用於避免排序操作。

當然，衆所周知，雖然索引可以提高查詢速度，但是它們也會導致數據庫系統更新數據的性能下降，因爲大部分數據更新需要同時更新索引。

2.索引的存儲

一條索引記錄中包含的基本信息包括：鍵值（即你定義索引時指定的所有字段的值）+邏輯指針（指向數據頁或者另一索引頁）。

當你爲一張空表創建索引時，數據庫系統將爲你分配一個索引頁，該索引頁在你插入數據前一直是空的。此頁此時既是根結點，也是葉結點。每當你往表中插入一行數據，數據庫系統即向此根結點中插入一行索引記錄。當根結點滿時，數據庫系統大抵按以下步驟進行分裂：
A）創建兩個兒子結點
B）將原根結點中的數據近似地拆成兩半，分別寫入新的兩個兒子結點
C）根結點中加上指向兩個兒子結點的指針

通常狀況下，由於索引記錄僅包含索引字段值（以及4-9字節的指針），索引實體比真實的數據行要小許多，索引頁相較數據頁來說要密集許多。一個索引頁可以存儲數量更多的索引記錄，這意味着在索引中查找時在I/O上佔很大的優勢，理解這一點有助於從本質上了解使用索引的優勢。

3．索引的類型

A）聚集索引，表數據按照索引的順序來存儲的。對於聚集索引，葉子結點即存儲了真實的數據行，不再有另外單獨的數據頁。
B）非聚集索引，表數據存儲順序與索引順序無關。對於非聚集索引，葉結點包含索引字段值及指向數據頁數據行的邏輯指針，該層緊鄰數據頁，其行數量與數據錶行數據量一致。

在一張表上只能創建一個聚集索引，因爲真實數據的物理順序只可能是一種。如果一張表沒有聚集索引，那麼它被稱爲“堆集”（Heap）。這樣的表中的數據行沒有特定的順序，所有的新行將被添加的表的末尾位置。

4．聚集索引

在聚集索引中，葉結點也即數據結點，所有數據行的存儲順序與索引的存儲順序一致。

1）聚集索引與查詢操作

如上圖，我們在名字字段上建立聚集索引，當需要在根據此字段查找特定的記錄時，數據庫系統會根據特定的系統表查找的此索引的根，然後根據指針查找下一個，直到找到。例如我們要查詢“Green”，由於它介於[Bennet,Karsen]，據此我們找到了索引頁1007，在該頁中“Green”介於[Greane, Hunter]間，據此我們找到葉結點1133（也即數據結點），並最終在此頁中找以了目標數據行。

此次查詢的IO包括3個索引頁的查詢（其中最後一次實際上是在數據頁中查詢）。這裏的查找可能是從磁盤讀取(Physical Read)或是從緩存中讀取(Logical Read)，如果此表訪問頻率較高，那麼索引樹中較高層的索引很可能在緩存中被找到。所以真正的IO可能小於上面的情況。

2）聚集索引與插入操作

最簡單的情況下，插入操作根據索引找到對應的數據頁，然後通過挪動已有的記錄爲新數據騰出空間，最後插入數據。

如果數據頁已滿，則需要拆分數據頁（頁拆分是一種耗費資源的操作，一般數據庫系統中會有相應的機制要儘量減少頁拆分的次數，通常是通過爲每頁預留空間來實現）：
A）在該使用的數據段（extent）上分配新的數據頁，如果數據段已滿，則需要分配新段。
B）調整索引指針，這需要將相應的索引頁讀入內存並加鎖。
C）大約有一半的數據行被歸入新的數據頁中。
D）如果表還有非聚集索引，則需要更新這些索引指向新的數據頁。

特殊情況：
A）如果新插入的一條記錄包含很大的數據，可能會分配兩個新數據頁，其中之一用來存儲新記錄，另一存儲從原頁中拆分出來的數據。
B）通常數據庫系統中會將重複的數據記錄存儲於相同的頁中。
C）類似於自增列爲聚集索引的，數據庫系統可能並不拆分數據頁，頁只是簡單的新添數據頁。

3）聚集索引與刪除操作

刪除行將導致其下方的數據行向上移動以填充刪除記錄造成的空白。

如果刪除的行是該數據頁中的最後一行，那麼該數據頁將被回收，相應的索引頁中的記錄將被刪除。如果回收的數據頁位於跟該表的其它數據頁相同的段上，那麼它可能在隨後的時間內被利用。如果該數據頁是該段的唯一一個數據頁，則該段也被回收。

對於數據的刪除操作，可能導致索引頁中僅有一條記錄，這時，該記錄可能會被移至鄰近的索引頁中，原索引頁將被回收，即所謂的“索引合併”。

5．非聚集索引

非聚集索引與聚集索引相比：
A）葉子結點並非數據結點
B）葉子結點爲每一真正的數據行存儲一個“鍵-指針”對
C）葉子結點中還存儲了一個指針偏移量，根據頁指針及指針偏移量可以定位到具體的數據行。
D）類似的，在除葉結點外的其它索引結點，存儲的也是類似的內容，只不過它是指向下一級的索引頁的。

聚集索引是一種稀疏索引，數據頁上一級的索引頁存儲的是頁指針，而不是行指針。而對於非聚集索引，則是密集索引，在數據頁的上一級索引頁它爲每一個數據行存儲一條索引記錄。

對於根與中間級的索引記錄，它的結構包括：
A）索引字段值
B）RowId（即對應數據頁的頁指針+指針偏移量）。在高層的索引頁中包含RowId是爲了當索引允許重複值時，當更改數據時精確定位數據行。
C）下一級索引頁的指針

對於葉子層的索引對象，它的結構包括：
A）索引字段值
B）RowId

1）非聚集索引與查詢操作

針對上圖，如果我們同樣查找“Green”，那麼一次查詢操作將包含以下IO：3個索引頁的讀取+1個數據頁的讀取。同樣，由於緩存的關係，真實的IO實際可能要小於上面列出的。

2）非聚集索引與插入操作

如果一張表包含一個非聚集索引但沒有聚集索引，則新的數據將被插入到最末一個數據頁中，然後非聚集索引將被更新。如果也包含聚集索引，該聚集索引將被用於查找新行將要處於什麼位置，隨後，聚集索引、以及非聚集索引將被更新。

3）非聚集索引與刪除操作

如果在刪除命令的Where子句中包含的列上，建有非聚集索引，那麼該非聚集索引將被用於查找數據行的位置，數據刪除之後，位於索引葉子上的對應記錄也將被刪除。如果該表上有其它非聚集索引，則它們葉子結點上的相應數據也要刪除。

如果刪除的數據是該數所頁中的唯一一條，則該頁也被回收，同時需要更新各個索引樹上的指針。

由於沒有自動的合併功能，如果應用程序中有頻繁的隨機刪除操作，最後可能導致表包含多個數據頁，但每個頁中只有少量數據。

6．索引覆蓋

索引覆蓋是這樣一種索引策略：當某一查詢中包含的所需字段皆包含於一個索引中，此時索引將大大提高查詢性能。

包含多個字段的索引，稱爲複合索引。索引最多可以包含31個字段，索引記錄最大長度爲600B。如果你在若干個字段上創建了一個複合的非聚集索引，且你的查詢中所需Select字段及Where,Order By,Group By,Having子句中所涉及的字段都包含在索引中，則只搜索索引頁即可滿足查詢，而不需要訪問數據頁。由於非聚集索引的葉結點包含所有數據行中的索引列值，使用這些結點即可返回真正的數據，這種情況稱之爲“索引覆蓋”。

在索引覆蓋的情況下，包含兩種索引掃描：
A）匹配索引掃描
B）非匹配索引掃描

1）匹配索引掃描

此類索引掃描可以讓我們省去訪問數據頁的步驟，當查詢僅返回一行數據時，性能提高是有限的，但在範圍查詢的情況下，性能提高將隨結果集數量的增長而增長。

針對此類掃描，索引必須包含查詢中涉及的的所有字段，另外，還需要滿足：Where子句中包含索引中的“引導列”（Leading Column），例如一個複合索引包含A,B,C,D四列，則A爲“引導列”。如果Where子句中所包含列是BCD或者BD等情況，則只能使用非匹配索引掃描。

2）非配置索引掃描

正如上述，如果Where子句中不包含索引的導引列，那麼將使用非配置索引掃描。這最終導致掃描索引樹上的所有葉子結點，當然，它的性能通常仍強於掃描所有的數據頁。

[參考]
[1]http://manuals.sybase.com/onlinebooks/group-asarc/asg1200e/aseperf/@Generic__BookTextView/3358
[2] http://publib.boulder.ibm.com/infocenter/idshelp/v10/index.jsp?topic=/com.ibm.adref.doc/adref235.htm

引用：http://www.cnblogs.com/KissKnife/archive/2009/03/30/1425534.html

http://blog.csdn.net/ant_yan/article/details/2932068

數據庫索引

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

類對象的sizeof大小

看，別人是怎麼實現鷹眼的（C#版）！

AE常見接口之間的關係+arcgis常見概念

對順序表的操作完整程序（1）

arcgis學習打包

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結