導讀:
作爲一個系統管理員(運維/架構師),我們時刻關注服務的變化情況,今天分享一篇關於MySQL性能瓶頸排查定位相關性的文章。
OS層面的檢查確認
首先要確認當前是否存在哪些進程引起的負載高,以及這些進程卡在什麼地方,瓶頸是什麼。通常來說,服務器上最容易成爲瓶頸的是磁盤I/O子系統,因爲它的讀寫速度通常是最慢的。即便是現在的PCIe SSD,其隨機I/O讀寫速度也是不如內存來得快。當然了,引起磁盤I/O慢得原因也有多種,需要確認哪種引起的。
第一步,我們一般先看整體負載如何,負載高的話,肯定所有的進程跑起來都慢。
執行指令 w 或者 sar -q 1 來查看負載數據:
[ly@imysql.com:~ ]# w
11:52:58 up 702 days, 56 min, 1 user, load average: 7.20, 6.70, 6.47
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
root pts/0 1.xx.xx.xx 11:51 0.00s 0.03s 0.00s w
sar -q 的觀察結果:
[ly@imysql.com:~ ]# sar -q 1
Linux 2.6.32-431.el6.x86_64 (ly.imysql.com) 01/13/2016 _x86_64_ (24 CPU)
02:51:18 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked
02:51:19 PM 4 2305 6.41 6.98 7.12 3
02:51:20 PM 2 2301 6.41 6.98 7.12 4
02:51:21 PM 0 2300 6.41 6.98 7.12 5
02:51:22 PM 6 2301 6.41 6.98 7.12 8
02:51:23 PM 2 2290 6.41 6.98 7.12 8
load average大意表示當前CPU中有多少任務在排隊等待,等待越多說明負載越高,跑數據庫的服務器上,一般load值超過5的話,已經算是比較高的了。
引起load高的原因也可能有多種:
某些進程/服務消耗更多CPU資源(服務響應更多請求或存在某些應用瓶頸);
發生比較嚴重的swap(可用物理內存不足);
發生比較嚴重的中斷(因爲SSD或網絡的原因發生中斷);
磁盤I/O比較慢(會導致CPU一直等待磁盤I/O請求);
這時我們可以執行下面的命令來判斷到底瓶頸在哪個子系統:
[ly@imysql.com:~ ]# top
top - 11:53:04 up 702 days, 56 min, 1 user, load average: 7.18, 6.70, 6.47
Tasks: 576 total, 1 running, 575 sleeping, 0 stopped, 0 zombie
Cpu(s): 7.7%us, 3.4%sy, 0.0%ni, 77.6%id, 11.0%wa, 0.0%hi, 0.3%si, 0.0%st
Mem: 49374024k total, 32018844k used, 17355180k free, 115416k buffers
Swap: 16777208k total, 117612k used, 16659596k free, 5689020k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
14165 mysql 20 0 8822m 3.1g 4672 S 162.3 6.6 89839:59 mysqld
40610 mysql 20 0 25.6g 14g 8336 S 121.7 31.5 282809:08 mysqld
49023 mysql 20 0 16.9g 5.1g 4772 S 4.6 10.8 34940:09 mysqld
很明顯是前面兩個mysqld進程導致整體負載較高。而且,從 Cpu(s) 這行的統計結果也能看的出來,%us 和 %wa 的值較高,表示當前比較大的瓶頸可能是在用戶進程消耗的CPU以及磁盤I/O等待上。我們先分析下磁盤I/O的情況。
執行 sar -d 確認磁盤I/O是否真的較大:
[ly@imysql.com:~ ]# sar -d 1
Linux 2.6.32-431.el6.x86_64 (yejr.imysql.com) 01/13/2016 _x86_64_ (24 CPU)
11:54:32 AM dev8-0 5338.00 162784.00 1394.00 30.76 5.24 0.98 0.19 100.00
11:54:33 AM dev8-0 5134.00 148032.00 32365.00 35.14 6.93 1.34 0.19 100.10
11:54:34 AM dev8-0 5233.00 161376.00 996.00 31.03 9.77 1.88 0.19 100.00
11:54:35 AM dev8-0 4566.00 139232.00 1166.00 30.75 5.37 1.18 0.22 100.00
11:54:36 AM dev8-0 4665.00 145920.00 630.00 31.41 5.94 1.27 0.21 100.00
11:54:37 AM dev8-0 4994.00 156544.00 546.00 31.46 7.07 1.42 0.20 100.00
再利用 iotop (注意版本)確認到底哪些進程消耗的磁盤I/O資源最多:
[ly@imysql.com:~ ]# iotop
Total DISK READ: 60.38 M/s | Total DISK WRITE: 640.34 K/s
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
16397 be/4 mysql 8.92 M/s 0.00 B/s 0.00 % 94.77 % mysqld --basedir=/usr/local/m~og_3320/mysql.sock --port=3320
7295 be/4 mysql 10.98 M/s 0.00 B/s 0.00 % 93.59 % mysqld --basedir=/usr/local/m~og_3320/mysql.sock --port=3320
14295 be/4 mysql 10.50 M/s 0.00 B/s 0.00 % 93.57 % mysqld --basedir=/usr/local/m~og_3320/mysql.sock --port=3320
14288 be/4 mysql 14.30 M/s 0.00 B/s 0.00 % 91.86 % mysqld --basedir=/usr/local/m~og_3320/mysql.sock --port=3320
14292 be/4 mysql 14.37 M/s 0.00 B/s 0.00 % 91.23 % mysqld --basedir=/usr/local/m~og_3320/mysql.sock --port=3320
可以看到,端口號是3320的實例消耗的磁盤I/O資源比較多,那就看看這個實例裏都有什麼查詢在跑吧。
MySQL層面檢查確認
首先看下當前都有哪些查詢在運行:
[ly@imysql.com(db)]> mysqladmin pr|grep -v Sleep
+----+----+----------+----+-------+-----+--------------+-----------------------------------------------------------------------------------------------+
| Id |User| Host | db |Command|Time | State | Info |
+----+----+----------+----+-------+-----+--------------+-----------------------------------------------------------------------------------------------+
| 25 | x | 10.x:8519 | db | Query | 68 | Sending data | select max(Fvideoid) from (select Fvideoid from t where Fvideoid>404612 order by Fvideoid) t1 |
| 26 | x | 10.x:8520 | db | Query | 65 | Sending data | select max(Fvideoid) from (select Fvideoid from t where Fvideoid>484915 order by Fvideoid) t1 |
| 28 | x | 10.x:8522 | db | Query | 130 | Sending data | select max(Fvideoid) from (select Fvideoid from t where Fvideoid>404641 order by Fvideoid) t1 |
| 27 | x | 10.x:8521 | db | Query | 167 | Sending data | select max(Fvideoid) from (select Fvideoid from t where Fvideoid>324157 order by Fvideoid) t1 |
| 36 | x | 10.x:8727 | db | Query | 174 | Sending data | select max(Fvideoid) from (select Fvideoid from t where Fvideoid>324346 order by Fvideoid) t1 |
可以看到有不少慢查詢還未完成,從slow query log中也能發現,這類SQL發生的頻率很高。
這是一個非常低效的SQL寫法,導致需要對整個主鍵進行掃描,但實際上只需要取得一個最大值而已,從slow query log中可看到:
Rows_sent: 1 Rows_examined: 5502460
每次都要掃描500多萬行數據,卻只爲讀取一個最大值,效率非常低。
經過分析,這個SQL稍做簡單改造即可在個位數毫秒級內完成,原先則是需要150-180秒才能完成,提升了N次方。
改造的方法是:對查詢結果做一次倒序排序,取得第一條記錄即可。而原先的做法是對結果正序排序,取最後一條記錄。
我們也可以通過MySQL自帶的命令排查
慢SQL和mysql當前數據庫連接數的查看方法如下:
- command:query 是執行狀態
- command:sleep 是空閒狀態
查詢當前執行時間超過50ms的慢SQL
SELECT * FROM INFORMATION_SCHEMA.PROCESSLIST WHERE TIME > 50 AND command = 'query' ORDER BY state DESC LIMIT 0,10000
顯示所有連接
SHOW FULL PROCESSLIST
- KILL到一個連接
- KILL 256115
查詢連接了這個數據庫的服務器的請求數
SELECT hostid,COUNT(hostid) FROM
(SELECT SUBSTRING_INDEX(HOST,':',1) AS hostid FROM INFORMATION_SCHEMA.PROCESSLIST WHERE TIME > 5 AND command = 'sleep' LIMIT 0,10000) AS hosttable GROUP BY hostid ORDER BY COUNT(hostid) DESC
查看阻塞的進程,並kill掉
SELECT * FROM INFORMATION_SCHEMA.PROCESSLIST WHERE command !='Sleep' LIMIT 100000
- KILL 811478