MySQL優化器：index merge介紹

在MySQL官方手冊上，關於index merge的介紹非常非常少。甚至還有不少誤導的地方，這次把5.1版本關於此類優化處理的代碼細看了一遍，以案例的方式介紹了各種實用index merge訪問類型的SQL。後續的還會繼續介紹index merge實現的主要數據結構，以及成本評估。

1. 什麼是index merge

MySQL優化器如果發現可以使用多個索引查找後的交集/並集定位數據，那麼MySQL優化器就會嘗試index merge這類訪問方式。index merge主要分爲兩大類，多個索引交集訪問(intersections)，多個索引並集訪問，當然這兩類還可以組合出更爲複雜的方式，例如多個交集後做並集。

1.1 index merge的限制：range優先

MySQL在5.6.7之前，使用index merge有一個重要的前提條件：沒有range可以使用。這個限制降低了MySQL index merge可以使用的場景。理想狀態是同時評估成本後然後做出選擇。因爲這個限制，就有了下面這個已知的bad case(參考)：

SELECT * FROM t1 WHERE (goodkey1 < 10 OR goodkey2 < 20) AND badkey < 30;

優化器可以選擇使用goodkey1和goodkey2做index merge，也可以使用badkey做range。因爲上面的原則，無論goodkey1和goodkey2的選擇度如何，MySQL都只會考慮range，而不會使用index merge的訪問方式。這是一個悲劇...（5.6.7版本針對此有修復)

2. 關於index merge的一些案例

關於什麼是交集/並集在手冊中有詳細介紹，這裏不贅述。這裏通過幾個案例來看看，哪些情況使用交集，哪些情況使用並集，哪些情況使用更復雜的組合。

示例中使用的表結構和數據參考本文4.2節。

2.1 k1_p1 = 2 or k2_p1 = 4

這是最典型，也是最簡單的場景了：

SELECT * FROM tmp_index_merge where key1_part1 = 2 or key2_part1 = 4

explain SELECT * FROM tmp_index_merge where key1_part1 = 2 or key2_part1 = 4\G ...... table: tmp_index_merge type: index_merge key: ind1,ind2 key_len: 4,4 Extra: Using sort_union(ind1,ind2); Using where

2.2 (k1_p1=2 and k1_p2=7) or k2_p1=4\G

這個案例稍微複雜一丁點，第一個索引使用了兩個字段：

explain SELECT * FROM tmp_index_merge where (key1_part1 = 2 and key1_part2 = 7) or key2_part1 = 4\G ...... table: tmp_index_merge type: index_merge key: ind1,ind2 key_len: 8,4 Extra: Using sort_union(ind1,ind2); Using where

2.3 (k1_p1=2 or k1_p1=7) or k2_p1=4\G

這個案例也能夠使用index merge。內部的實現比它表面上看起來要複雜，這裏簡單解釋一下：MySQL在遞歸處理這個WHERE條件時，先處理前一部分(key1_part1 = 2 or key1_part1 = 7)。對於同一個索引的同一個字段進行or操作，MySQL會將其合併成一顆SEL_ARG樹(具體參考)，兩個條件通過SEL_ARG的Next/prev指針連接。MySQL的range訪問方式可以通過遍歷這棵樹(也可以參考前面這篇文章)。接着優化器再處理or的另一個分支(key2_part1 = 4)發現可以使用第二個索引，於是將index merge加入可能的執行計劃列表(後續評估成本，再決定是否實用該訪問方式)。

explain SELECT * FROM tmp_index_merge where (key1_part1 = 2 or key1_part1 = 7) or key2_part1 = 4\G ...... table: tmp_index_merge type: index_merge key: ind1,ind2 key_len: 4,4 Extra: Using sort_union(ind1,ind2); Using where

2.4 (k1_p1=2 or k1_p2=7) or k2_p1=4\G

這種情況是無法直接使用任何索引的。不解釋。

explain SELECT * FROM tmp_index_merge where (key1_part1 = 2 or key1_part2 = 7) or key2_part1 = 4\G ...... table: tmp_index_merge type: ALL possible_keys: ind1,ind2 key: NULL Extra: Using where

2.5 k1_p1=1 or (k1_p1=2 and k1_p2=4 and k2_p1=3)

對於這樣的條件，MySQL會發現可以使用range訪問方式。而根據前面的"range優先"原則，MySQL不再考慮index merge(這裏k1_p1=1和k2_p1=3是可以通過index merge訪問方式實現的)。MySQL在考慮使用key1訪問的時候，看到的條件是：k1_p1=1 or (k1_p1=2 and k1_p2=4)。這裏OR兩邊的條件可以構造成一顆獨立的SEL_ARG。(本文後面小結“更多關於range優先原則”有更多詳細介紹)

所以，MySQL會直接使用range，而不再考慮index merge。(怎樣的條件無法夠着成一顆SEL_ARG樹，參考，對於兩顆SEL_ARG通過or合併的時候，還有一些更復雜的事情，這裏暫時不做介紹)

explain SELECT * FROM tmp_sel_tree where key1_part1=1 or (key1_part1=2 and key1_part2=4 and key2_part1=3)\G table: tmp_sel_tree type: range key: ind1 key_len: 8 Extra: Using where

如果前面這幾個案例看明白了，那可以繼續了，下面會有一些更復雜的案例：

2.6 嵌套的案例1

這個案例看起來很複雜，但其本質跟最前面提到的"已知的bad case"相同，是一個可以使用index merge，但是被range優先掉的案例。

SELECT * FROM tmp_sel_tree where ( key1_part1 = 1 or (key1_part2 = 2 and key2_part1 = 3) ) and ( key3_part1 = 5 )

2.7 嵌套的案例2

這個案例跟上面稍有不同，是一個三個索引的index merge，這裏MySQL將考慮使用index merge。但是一般來說，這類index merge成本本身較大，容易超過全表的成本：

SELECT * FROM tmp_sel_tree where ( key1_part1 = 1 or (key1_part2 = 2 and key2_part1 = 3) ) or ( key3_part1 = 5 )

如果成本評估後，發現index merge成本小於全表，則會使用：

table: tmp_sel_tree type: index_merge key: ind1,ind2,ind3 Extra: Using sort_union(ind1,ind2,ind3); Using where

3. 更多關於range優先原則

可以使用range的情況

在5.6.7之前的MySQL版本，只要可以使用Range訪問方式，那就不會再使用index merge。因爲可以使用range訪問的WHERE條件是非常多的，除了我們常見的(k1_p1=const and k2_p2>const)，如果參考Range優化相關的數據結構，還會看到更多的WHERE條件可以使用range。

這裏拿出其中一個較爲複雜的可以使用range訪問的WHERE條件，做一個簡單分析。

WHERE ( key1_part1 = 3 and key1_part2 > 5 and key2_part1 = 7 ) or ( key1_part1 > 2 )

對於索引key2來說，這個條件可以簡化爲如下，可以使用index merge的訪問方式：

(TRUE AND TRUE AND key2_part1 = 7) OR ( key1_part1 < 2 )

對於索引key1來說，條件簡化爲：

(key1_part1 = 3 and key1_part2 > 5 and TRUE) or (key1_part1 > 2)

對於索引key1，這是一個可以使用range訪問方式的條件。根據前文Range優化相關的數據結構可以構造成一顆SEL_ARG結構，如下：

$ $ SEL_ARG[2,∞) $ $ |^ $ $ next|| $ $ ||prev $ $ v| $ $ SEL_ARG[3,3] ==$====> SEL_ARG[5,∞] $ $ $

range訪問會依次SEL_ARG，遍歷訪問。因爲有range訪問方式，所以這類條件不會再考慮index merge。

但如果WHERE是如下樣子（OR後面條件是key1_part2而不是key1_part1）：

WHERE ( key1_part1 = 3 and key1_part2 > 5 and key2_part1 = 7 ) or ( key1_part2 > 2 )

OR後面的key1_part2是無法與前面的key1條件合併成一顆SEL_ARG樹，所以也就無法使用range訪問。因爲or後面條件無法獨立使用索引訪問，所以也同樣無法做index merge訪問。

4. 其他

4.1 type in MySQL Explain

在MySQL手冊中把Explain中type列稱爲："EXPLAIN Join Types"。這給很多人產生了誤解，這裏的Type實際是指在整個JOIN中這個單表的訪問方式。例如：

id: 1 select_type: SIMPLE table: tmp_sel_tree type: index_merge possible_keys: ind1,ind2,ind3 key: ind1,ind2,ind3 key_len: 4,4,4

常見的單表訪問方式有：const/ref/range/index/all

MySQL的優化器主要有兩個自由度，一個是確定每個單表的訪問方式。另一個就是訪問順序。博客中常說的使用"range優化" "index merge優化"也是指MySQL單表訪問方式選擇了"range"或者"index merge"。

4.2 示例中的表結構和數據

MySQL優化器：index merge介紹

1. 什麼是index merge

2. 關於index merge的一些案例

3. 更多關於range優先原則

4. 其他

實操|基於OceanBase打造更穩定的Zabbix監控系統

Milvus 老友匯｜RAG 場景、電商平臺、AI 平臺……如何用向量數據庫構建業務方案？

提高 RAG 應用準確度，時下流行的 Reranker 瞭解一下？

忘掉 Snowflake，感受一下性能高出 587 倍的全局唯一 ID 生成算法

前端面試-高頻考點

高可用框架Resilience4j使用指南

《構建之法》讀後感之項目計劃

Zookeeper集羣腦裂問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結