B+樹索引與Hash索引的區別

B+樹索引與Hash索引的區別

  • B+(BTREE索引)

B+樹索引寫成了BTREE的寫法:

CREATE TABLE t(
aid int unsigned not null auto_increment,
userid int unsigned not null default 0,
username varchar(20) not null default ‘’,
detail varchar(255) not null default ‘’,
primary key(aid),
unique key(uid) USING BTREE,
key (username(12)) USING BTREE — 此處 uname 列只創建了最左12個字符長度的部分索引
)engine=InnoDB;

B-Tree 索引是 MySQL 數據庫中使用最爲頻繁的索引類型,除了 Archive 存儲引擎之外的其他所有的存儲引擎都支持B-Tree 索引。不僅僅在 MySQL 中是如此,實際上在其他的很多數據庫管理系統中B-Tree索引也同樣是作爲最主要的索引類型,這主要是因爲 B-Tree索引的存儲結構在數據庫的數據檢 索中有非常優異的表現。
一般來說, MySQL 中的 B-Tree 索引的物理文件大多都是以 Balance Tree的結構來存儲的,也就是所有實際需要的數據都存放於 Tree 的 Leaf Node ,而且到任何一個 Leaf Node的最短路徑的長度都是完全相同的,所以我們大家都稱之爲 B-Tree 索引當然,可能各種數據庫(或 MySQL的各種存儲引擎)在存放自己的 B-Tree 索引的時候會對存儲結構稍作改造。如 Innodb 存儲引擎的 B-Tree索引實際使用的存儲結構實際上是 B+Tree ,也就是在 B-Tree數據結構的基礎上做了很小的改造,在每一個
Leaf Node 上面出了存放索引鍵的相關信息之外,還存儲了指向與該 Leaf Node 相鄰的後一個 LeafNode的指針信息,這主要是爲了加快檢索多個相鄰 Leaf Node 的效率考慮。
在 Innodb 存儲引擎中,存在兩種不同形式的索引,一種是 Cluster 形式的主鍵索引( Primary Key),另外一種則是和其他存儲引擎(如 MyISAM 存儲引擎)存放形式基本相同的普通 B-Tree 索引,這種索引在 Innodb存儲引擎中被稱爲 Secondary Index。下面我們通過圖示來針對這兩種索引的存放
形式做一個比較。

經典的B+樹索引數據結構見下圖:
在這裏插入圖片描述

B+樹是一個平衡的多叉樹,從根節點到每個葉子節點的高度差值不超過1,而且同層級的節點間有指針相互鏈接。
在B+樹上的常規檢索,從根節點到葉子節點的搜索效率基本相當,不會出現大幅波動,而且基於索引的順序掃描時,也可以利用雙向指針快速左右移動,效率非常高。
因此,B+樹索引被廣泛應用於數據庫、文件系統等場景。順便說一下,xfs文件系統比ext3/ext4效率高很多的原因之一就是,它的文件及目錄索引結構全部採用B+樹索引,而ext3/ext4的文件目錄結構則採用Linked
list, hashed B-tree、Extents/Bitmap等索引數據結構,因此在高I/O壓力下,其IOPS能力不如xfs。
BTree索引是最常用的mysql數據庫索引算法,因爲它不僅可以被用在=,>,>=,<,<=和between這些比較操作符上,而且還可以用於like操作符,只要它的查詢條件是一個不以通配符開頭的常量,例如:
select * from user where name like ‘a%’;
select * from user where name like ‘jac%a%’;
如果一通配符開頭,或者沒有使用常量,則不會使用索引,例如:
select * from user where name like ‘%a’;
select * from user where name like a

  • 哈希索引
    在這裏插入圖片描述

Hash索引結構的特殊性,其檢索效率非常高,索引的檢索可以一次定位,不像B-Tree索引需要從根節點到枝節點,最後才能訪問到頁節點這樣多次的IO訪問,所以Hash 索引的查詢效率要遠高於 B-Tree索引。 既然Hash 索引的效率要比 B-Tree 高很多,爲什麼大家不都用 Hash索引而還要使用 B-Tree索引呢?任何事物都是有兩面性的,Hash 索引也一樣,雖然 Hash 索引效率高,但是 Hash索引本身由於其特殊性也帶來了很多限制和弊端,主要有以下這些。

Hash索引僅僅能滿足"=",“IN"和”<=>"查詢,不能使用範圍查詢。
由於 Hash 索引比較的是進行 Hash 運算之後的 Hash值,所以它只能用於等值的過濾,不能用於基於範圍的過濾,因爲經 過相應的 Hash算法處理之後的 Hash 值的大小關係,並不能保證和Hash運算前完全一樣。
Hash 索引無法被用來避免數據的排序操作。
由於 Hash 索引中存放的是經過 Hash 計算之後的 Hash值,而且Hash值的大小關係並不一定和 Hash運算前的鍵值完全一樣,所以數據庫無法利用索引的數據來避免任何排序運算;
Hash索引不能利用部分索引鍵查詢。
對於組合索引,Hash 索引在計算 Hash 值的時候是組合索引鍵合併後再一起計算 Hash 值,而不是單獨計算 Hash值,所以通過組合索引的前面一個或幾個索引鍵進行查詢的時候,Hash 索引也無法被利用。
Hash索引在任何時候都不能避免表掃描。
前面已經知道,Hash 索引是將索引鍵通過 Hash 運算之後,將 Hash運算結果的 Hash值和所對應的行指針信息存放於一個 Hash 表中,由於不同索引鍵存在相同 Hash 值,所以即使取滿足某個 Hash 鍵值的數據的記錄條數,也無法從 Hash索引中直接完成查詢,還是要通過訪問表中的實際數據進行相應的比較,並得到相應的結果。
Hash索引遇到大量Hash值相等的情況後性能並不一定就會比B-Tree索引高

在MySQL中,只有HEAP/MEMORY引擎表才能顯式支持哈希索引(NDB也支持,但這個不常用),InnoDB引擎的自適應哈希索引(adaptive
hash index)不在此列,因爲這不是創建索引時可指定的。
還需要注意到:HEAP/MEMORY引擎表在mysql實例重啓後,數據會丟失。
通常,B+樹索引結構適用於絕大多數場景,像下面這種場景用哈希索引才更有優勢:
在HEAP表中,如果存儲的數據重複度很低(也就是說基數很大),對該列數據以等值查詢爲主,沒有範圍查詢、沒有排序的時候,特別適合採用哈希索引

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章