1190000010443438

多列索引

我們經常聽到一些人說"把WHERE條件裏的列都加上索引"，其實這個建議非常錯誤。在多個列上建立單獨的索引大部分情況下並不能提高MySQL的查詢性能。MySQL在5.0之後引入了一種叫“索引合併”（index merge）的策略，一定程度上可以使用表上的多個單列索引來定位指定的行。但是當服務器對多個索引做聯合操作時，通常需要耗費大量CPU和內存資源在算法的緩存、排序和合並操作上，特別是當其中有些索引的選擇性不高，需要合併掃描大量的數據的時候。
這個時候，我們需要一個多列索引。

案例

創建一個測試數據庫和數據表：

CREATE DATABASE IF NOT EXISTS db_test default charset utf8 COLLATE utf8_general_ci; 
use db_test;
CREATE TABLE payment (  
    id         INT UNSIGNED NOT NULL AUTO_INCREMENT,  
    staff_id  INT UNSIGNED NOT NULL,  
    customer_id INT UNSIGNED NOT NULL,  
    PRIMARY KEY (id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

利用存儲過程插入1000w行隨機數據(表引擎可以先設置爲MyISAM，然後改爲InnoDB):

DROP PROCEDURE IF EXISTS add_payment;  
DELIMITER //
    create PROCEDURE add_payment(in num INT)
    BEGIN
        DECLARE rowid INT DEFAULT 0;
        SET @exesql = 'INSERT INTO payment(staff_id, customer_id) values (?, ?)';
        WHILE rowid < num DO
            SET @staff_id = (1 + FLOOR(5000*RAND()) ); 
            SET @customer_id = (1 + FLOOR(500000*RAND()));
            SET rowid = rowid + 1;
            prepare stmt FROM @exesql;
            EXECUTE stmt USING @staff_id, @customer_id;            
        END WHILE;
    END //
DELIMITER ;

或者你可以直接下載使用我的測試數據(也是利用上面的存儲過程,但是我之後調整了數據):
測試數據

添加兩個單列索引(執行過程要花點時間,建議分開一句一句執行):

ALTER TABLE `payment` ADD INDEX idx_customer_id(`customer_id`);
ALTER TABLE `payment` ADD INDEX idx_staff_id(`staff_id`);

查詢一條數據利用到兩個列的索引:

select count(*) from payment where staff_id = 2205 AND customer_id = 93112;

查看執行計劃:

mysql> explain select count(*)  from payment  where staff_id =  2205  AND customer_id =  93112;
+----+-------------+---------+-------------+------------------------------+------------------------------+---------+------+-------+-------------------------------------------------------------------------+
| id | select_type | table   | type        | possible_keys                | key                          | key_len | ref  | rows  | Extra                                                                   |
+----+-------------+---------+-------------+------------------------------+------------------------------+---------+------+-------+-------------------------------------------------------------------------+
|  1 | SIMPLE      | payment | index_merge | idx_customer_id,idx_staff_id | idx_staff_id,idx_customer_id | 4,4     | NULL | 11711 | Using intersect(idx_staff_id,idx_customer_id); Using where; Using index |
+----+-------------+---------+-------------+------------------------------+------------------------------+---------+------+-------+-------------------------------------------------------------------------+
1 row in set (0.00 sec)

可以看到type是index_merge,Extra中提示Using intersect(idx_staff_id,idx_customer_id);
這便是索引合併,利用兩個索引,然後合併兩個結果(取交集或者並集或者兩者都有)
查詢結果:

mysql> select count(*)  from payment  where staff_id =  2205  AND customer_id =  93112 ;
+----------+
| count(*) |
+----------+
|   178770 |
+----------+
1 row in set (0.12 sec)

然後刪除以上索引,添加多列索引:

ALTER TABLE payment DROP INDEX idx_customer_id;
ALTER TABLE payment DROP INDEX idx_staff_id;
ALTER TABLE `payment` ADD INDEX idx_customer_id_staff_id(`customer_id`, `staff_id`);

注意,多列索引很關注索引列的順序(因爲customer_id的選擇性更大,所以把它放前面)
查詢:

mysql> select count(*)  from payment  where staff_id =  2205  AND customer_id =  93112;
+----------+
| count(*) |
+----------+
|   178770 |
+----------+
1 row in set (0.05 sec)

發現多列索引加快的查詢(這裏數據量還是較小,更大的時候比較更明顯)

注意

多列索引的列順序至關重要，如何選擇索引的列順序有一個經驗法則:將選擇性最高的列放到索引最前列（但是不是絕對的）。經驗法則考慮全局的基數和選擇性，而不是某個具體的查詢：

mysql> select count(DISTINCT staff_id) / count(*) AS staff_id_selectivity, count(DISTINCT customer_id) / count(*) AS customer_id_selectivity, count(*) from payment\G;
*************************** 1. row ***************************
   staff_id_selectivity: 0.0005
customer_id_selectivity: 0.0500
               count(*): 10000000
1 row in set (6.29 sec)

customer_id的選擇性更高，所以將它作爲索引列的第一位。
多列索引只能匹配最左前綴，也就是說：

select * from payment  where staff_id =  2205  AND customer_id =  93112 ;
select count(*)  from payment  where  customer_id =  93112 ;

可以利用索引，但是

select * from payment where staff_id = 2205 ;

不能利用索引。

MySQL多列索引的應用

轉自：https://segmentfault.com/a/1190000010443438

多列索引

案例

注意

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

cs04 CSS Measurement Units

Mac Idea 啓動SpringBoot時間很長的解決方案

對象的發佈與逸出簡單理解

idea使用HTTP方式使用git，無法保存密碼

MySQL多列索引的應用

什麼是Semaphore(信號量)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結