SQL優化 隨筆

1 基本概念簡述

1.1 邏輯架構
在這裏插入圖片描述

  • 第一層:客戶端通過連接服務,將要執行的sql指令傳輸過來
  • 第二層:服務器解析並優化sql,生成最終的執行計劃並執行
  • 第三層:存儲引擎,負責數據的儲存和提取
    1.2 鎖
    數據庫通過鎖機制來解決併發場景-共享鎖(讀鎖)和排他鎖(寫鎖)。讀鎖是不阻塞的,多個客戶端可以在同一時刻讀取同一個資源。寫鎖是排他的,並且會阻塞其他的讀鎖和寫鎖。簡單提下樂觀鎖和悲觀鎖。

樂觀鎖,通常用於數據競爭不激烈的場景,多讀少寫,通過版本號和時間戳實現。
悲觀鎖,通常用於數據競爭激烈的場景,每次操作都會鎖定數據。
表鎖,鎖定整張表,開銷最小,但是會加劇鎖競爭。
行鎖,鎖定行級別,開銷最大,但是可以最大程度的支持併發。

但是MySql的存儲引擎的真實實現不是簡單的行級鎖,一般都是實現了多版本併發控制(MVCC)。MVCC是行級鎖的變種,多數情況下避免了加鎖操作,開銷更低。MVCC是通過保存數據的某個時間點快照實現的。

1.3 事務
事務保證一組原子性的操作,要麼全部成功,要麼全部失敗。一旦失敗,回滾之前的所有操作。MySql採用自動提交,如果不是顯式的開啓一個事務,則每個查詢都作爲一個事務。

隔離級別控制了一個事務中的修改,哪些在事務內和事務間是可見的。四種常見的隔離級別:

未提交讀(Read UnCommitted),事務中的修改,即使沒提交對其他事務也是可見的。事務可能讀取未提交的數據,造成髒讀。

提交讀(Read Committed),一個事務開始時,只能看見已提交的事務所做的修改。事務未提交之前,所做的修改對其他事務是不可見的。也叫不可重複讀,同一個事務多次讀取同樣記錄可能不同。

可重複讀(RepeatTable Read),同一個事務中多次讀取同樣的記錄結果時結果相同。

可串行化(Serializable),最高隔離級別,強制事務串行執行。

1.4 存儲引擎

InnoDB引擎,最重要,使用最廣泛的存儲引擎。被用來設計處理大量短期事務,具有高性能和自動崩潰恢復的特性。

MyISAM引擎,不支持事務和行級鎖,崩潰後無法安全恢復。

2 創建時優化

2.1 Schema和數據類型優化

整數

TinyInt,SmallInt,MediumInt,Int,BigInt 使用的存儲8,16,24,32,64位存儲空間。使用Unsigned表示不允許負數,可以使正數的上線提高一倍。

實數

  • Float,Double , 支持近似的浮點運算。
  • Decimal,用於存儲精確的小數。

字符串

  • VarChar,存儲變長的字符串。需要1或2個額外的字節記錄字符串的長度。
  • Char,定長,適合存儲固定長度的字符串,如MD5值。
  • Blob,Text 爲了存儲很大的數據而設計的。分別採用二進制和字符的方式。

時間類型

  • DateTime,保存大範圍的值,佔8個字節。
  • TimeStamp,推薦,與UNIX時間戳相同,佔4個字節。

優化建議點

  • 儘量使用對應的數據類型。比如,不要用字符串類型保存時間,用整型保存IP。
  • 選擇更小的數據類型。能用TinyInt不用Int。
  • 標識列(identifier column),建議使用整型,不推薦字符串類型,佔用更多空間,而且計算速度比整型慢。
  • 不推薦ORM系統自動生成的Schema,通常具有不注重數據類型,使用很大的VarChar類型,索引利用不合理等問題。
  • 真實場景混用範式和反範式。冗餘高查詢效率高,插入更新效率低;冗餘低插入更新效率高,查詢效率低。
  • 創建完全的獨立的彙總表\緩存表,定時生成數據,用於用戶耗時時間長的操作。對於精確度要求高的彙總操作,可以採用 歷史結果+最新記錄的結果來達到快速查詢的目的。
  • 數據遷移,表升級的過程中可以使用影子表的方式,通過修改原表的表名,達到保存歷史數據,同時不影響新表使用的目的

2.2 索引

索引包含一個或多個列的值。MySql只能高效的利用索引的最左前綴列。索引的優勢:

  • 減少查詢掃描的數據量
  • 避免排序和零時表
  • 將隨機IO變爲順序IO (順序IO的效率高於隨機IO)

B-Tree

使用最多的索引類型。採用B-Tree數據結構來存儲數據(每個葉子節點都包含指向下一個葉子節點的指針,從而方便葉子節點的遍歷)。B-Tree索引適用於全鍵值,鍵值範圍,鍵前綴查找,支持排序。

B-Tree索引限制

  • 如果不是按照索引的最左列開始查詢,則無法使用索引。
  • 不能跳過索引中的列。如果使用第一列和第三列索引,則只能使用第一列索引。
  • 如果查詢中有個範圍查詢,則其右邊的所有列都無法使用索引優化查詢。

哈希索引

只有精確匹配索引的所有列,查詢纔有效。存儲引擎會對所有的索引列計算一個哈希碼,哈希索引將所有的哈希碼存儲在索引中,並保存指向每個數據行的指針。

哈希索引限制

  • 無法用於排序
  • 不支持部分匹配
  • 只支持等值查詢如=,IN(),不支持 < >

優化建議點

  • 注意每種索引的適用範圍和適用限制。
  • 索引的列如果是表達式的一部分或者是函數的參數,則失效。
  • 針對特別長的字符串,可以使用前綴索引,根據索引的選擇性選擇合適的前綴長度。
  • 使用多列索引的時候,可以通過 AND 和 OR 語法連接。
  • 重複索引沒必要,如(A,B)和(A)重複。
  • 索引在where條件查詢和group by語法查詢的時候特別有效。
  • 將範圍查詢放在條件查詢的最後,防止範圍查詢導致的右邊索引失效的問題。
  • 索引最好不要選擇過長的字符串,而且索引列也不宜爲null。

3 查詢時優化

3.1 查詢質量的三個重要指標

  • 響應時間 (服務時間,排隊時間)
  • 掃描的行
  • 返回的行

3.2 查詢優化點

  • 避免查詢無關的列,如使用Select * 返回所有的列。

  • 避免查詢無關的行

  • 切分查詢。將一個對服務器壓力較大的任務,分解到一個較長的時間中,並分多次執行。如要刪除一萬條數據,可以分10次執行,每次執行完成後暫停一段時間,再繼續執行。過程中可以釋放服務器資源給其他任務。

  • 分解關聯查詢。將多表關聯查詢的一次查詢,分解成對單表的多次查詢。可以減少鎖競爭,查詢本身的查詢效率也比較高。因爲MySql的連接和斷開都是輕量級的操作,不會由於查詢拆分爲多次,造成效率問題。

  • 注意count的操作只能統計不爲null的列,所以統計總的行數使用count(*)。

  • group by 按照標識列分組效率高,分組結果不宜出行分組列之外的列。

  • 關聯查詢延遲關聯,可以根據查詢條件先縮小各自要查詢的範圍,再關聯。

  • Limit分頁優化。可以根據索引覆蓋掃描,再根據索引列關聯自身查詢其他列。如

SELECT
 id,
 NAME,
 age
WHERE
 student s1
INNER JOIN (
 SELECT
     id
 FROM
     student
 ORDER BY
     age
 LIMIT 50,5
) AS s2 ON s1.id = s2.id
  • Union查詢默認去重,如果不是業務必須,建議使用效率更高的Union All

補充內容

1.條件中的字段類型和表結構類型不一致,mysql會自動加轉換函數,導致索引作爲函數中的參數失效。

2.like查詢前面部分未輸入,以%開頭無法命中索引。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章