更優美的limit使用方法(limit 對mysql 數據查詢的性能影響)

本文在zhangyachen的基礎上重新排版
來源：zhangyachen

一，前言

首先說明一下`MySQL`的版本：

mysql> select version();

+-----------+
| version() |
+-----------+
| 5.7.17    |
+-----------+
1 row in set (0.00 sec)

表結構：

mysql> desc test;

+--------+---------------------+------+-----+---------+----------------+
| Field  | Type                | Null | Key | Default | Extra          |
+--------+---------------------+------+-----+---------+----------------+
| id     | bigint(20) unsigned | NO   | PRI | NULL    | auto_increment |
| val    | int(10) unsigned    | NO   | MUL | 0       |                |
| source | int(10) unsigned    | NO   |     | 0       |                |
+--------+---------------------+------+-----+---------+----------------+
3 rows in set (0.00 sec)

id: 自增主鍵
val: 非唯一索引。

數據量，共500多萬

mysql> select count(*) from test;

+----------+
| count(*) |
+----------+
|  5242882 |
+----------+
1 row in set (4.25 sec)

當limit offset rows中的offset很大時，會出現效率問題：

mysql> select * from test where val=4 limit 300000,5;

+---------+-----+--------+
| id      | val | source |
+---------+-----+--------+
| 3327622 |   4 |      4 |
| 3327632 |   4 |      4 |
| 3327642 |   4 |      4 |
| 3327652 |   4 |      4 |
| 3327662 |   4 |      4 |
+---------+-----+--------+
5 rows in set (15.98 sec)

我們可以改寫成如下語句(`效率優化版`)達到相同的目的：

mysql> select * from test a inner join (select id from test where val=4 limit 300000,5) b on a.id=b.id;

+---------+-----+--------+---------+
| id      | val | source | id      |
+---------+-----+--------+---------+
| 3327622 |   4 |      4 | 3327622 |
| 3327632 |   4 |      4 | 3327632 |
| 3327642 |   4 |      4 | 3327642 |
| 3327652 |   4 |      4 | 3327652 |
| 3327662 |   4 |      4 | 3327662 |
+---------+-----+--------+---------+
5 rows in set (0.38 sec)

時間相差很明顯。

爲什麼會出現上面的結果？
我們看一下select * from test where val=4 limit 300000,5;的查詢過程：

查詢到索引葉子節點數據。
根據葉子節點上的主鍵值去聚簇索引上查詢需要的全部字段值。

類似於下面這張圖：

像上面這樣，

需要查詢300005次索引節
查詢300005次聚簇索引的數據
最後再將結果過濾掉前300000條，取出最後5條
MySQL耗費了大量隨機I/O在查詢聚簇索引的數據上，而有300000次隨機I/O查詢到的數據是不會出現在結果集當中的。

肯定會有人問：既然一開始是利用索引的，爲什麼不先沿着索引葉子節點查詢到最後需要的5個節點，然後再去聚簇索引中查詢實際數據。

這樣只需要5次隨機I/O，類似於下面圖片的過程：

證實

下面我們實際操作一下來證實上述的推論：

爲了證實select * from test where val=4 limit 300000,5是掃描300005個索引節點和300005個聚簇索引上的數據節點，我們需要統計MySQL在一個sql中通過索引節點查詢數據節點的次數。
我先試了Handler_read_*系列，很遺憾沒有一個變量能滿足條件。

通過間接的方式來證實：

InnoDB中有buffer pool
裏面存有最近訪問過的數據頁，包括數據頁和索引頁

所以我們需要運行兩個sql，來比較buffer pool中的數據頁的數量

預測結果:
select * from test a inner join (select id from test where val=4 limit 300000,5) b on a.id=b.id;使用的buffer pool中的數據頁的數量遠遠少於select * from test where val=4 limit 300000,5;對應的數量

測試普通的limit查詢

檢查buffer pool的使用量

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;
Empty set (0.04 sec)

可以看出，目前buffer pool中沒有關於test表的數據頁。

執行查詢語句

mysql> select * from test where val=4 limit 300000,5;

+---------+-----+--------+
| id      | val | source |
+---------+-----+--------+
| 3327622 |   4 |      4 |
| 3327632 |   4 |      4 |
| 3327642 |   4 |      4 |
| 3327652 |   4 |      4 |
| 3327662 |   4 |      4 |
+---------+-----+--------+
5 rows in set (26.19 sec)

查看buffer pool的使用量

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;

+------------+----------+
| index_name | count(*) |
+------------+----------+
| PRIMARY    |     4098 |
| val        |      208 |
+------------+----------+
2 rows in set (0.04 sec)

可以看出，此時buffer pool中關於test表有4098個數據頁，208個索引頁。

清空buffer pool

防止上次試驗的影響，我們需要清空buffer pool，重啓mysql。

執行語句

mysqladmin shutdown /usr/local/bin/mysqld_safe &

檢查buffer pool的使用量

mysql> select index_name,count(*) from  information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;
Empty set (0.03 sec)

測試優化版的limit查詢

執行查詢語句

mysql> select * from test a inner join (select id from test where val=4 limit 300000,5) b on a.id=b.id;

+---------+-----+--------+---------+
| id      | val | source | id      |
+---------+-----+--------+---------+
| 3327622 |   4 |      4 | 3327622 |
| 3327632 |   4 |      4 | 3327632 |
| 3327642 |   4 |      4 | 3327642 |
| 3327652 |   4 |      4 | 3327652 |
| 3327662 |   4 |      4 | 3327662 |
+---------+-----+--------+---------+
5 rows in set (0.09 sec)

查看buffer pool的使用量

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;

+------------+----------+
| index_name | count(*) |
+------------+----------+
| PRIMARY    |        5 |
| val        |      390 |
+------------+----------+
2 rows in set (0.03 sec)

我們可以看明顯的看出兩者的差別：
第一個sql加載了4098個數據頁到buffer pool
第二個sql只加載了5個數據頁到buffer pool
符合我們的預測, 也證實了爲什麼第一個sql會慢：讀取300000無用數據行，最後卻拋棄掉。

而且這會造成一個問題：浪費了buffer pool的空間

遇到的問題

爲了在每次重啓時確保清空buffer pool，我們需要關閉innodb_buffer_pool_dump_at_shutdown
innodb_buffer_pool_load_at_startup
這兩個選項能夠控制數據庫關閉時dump出buffer pool中的數據和在數據庫開啓時載入在磁盤上備份buffer pool的數據。

參考資料：

1.https://explainextended.com/2009/10/23/mysql-order-by-limit-performance-late-row-lookups/
2.https://dev.mysql.com/doc/refman/5.7/en/innodb-information-schema-buffer-pool-tables.html

更優美的limit使用方法(limit 對mysql 數據查詢的性能影響)

更優美的limit使用方法(limit 對mysql 數據查詢的性能影響)

一，前言

首先說明一下`MySQL`的版本：

表結構：

數據量，共500多萬

當limit offset rows中的offset很大時，會出現效率問題：

我們可以改寫成如下語句(`效率優化版`)達到相同的目的：

時間相差很明顯。

證實

通過間接的方式來證實：

測試普通的limit查詢

檢查buffer pool的使用量

執行查詢語句

查看buffer pool的使用量

清空buffer pool

執行語句

檢查buffer pool的使用量

測試優化版的limit查詢

執行查詢語句

查看buffer pool的使用量

遇到的問題

參考資料：

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

CentOS7 jenkins安裝與使用(遠程部署spring boot)

esxi磁盤顯示錯誤(ssd顯示爲非ssd)

linux 磁盤工具 hdparm 使用命令

CentOS 8 docker安裝

BeanUtils.copyProperties 和 fastjson 性能對比

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

更優美的limit使用方法(limit 對mysql 數據查詢的性能影響)

更優美的limit使用方法(limit 對mysql 數據查詢的性能影響)

一，前言

首先說明一下MySQL的版本：

表結構：

數據量，共500多萬

當limit offset rows中的offset很大時，會出現效率問題：

我們可以改寫成如下語句(效率優化版)達到相同的目的：

時間相差很明顯。

證實

通過間接的方式來證實：

測試普通的limit查詢

檢查buffer pool的使用量

執行查詢語句

查看buffer pool的使用量

清空buffer pool

執行語句

檢查buffer pool的使用量

測試優化版的limit查詢

執行查詢語句

查看buffer pool的使用量

遇到的問題

參考資料：

首先說明一下`MySQL`的版本：

我們可以改寫成如下語句(`效率優化版`)達到相同的目的：