MySQL性能調優(6)解讀58同城數據庫設計軍規30條

軍規適用場景:併發量大、數據量大的互聯網業務
只是解讀:沒必要完全效仿

基礎規範

  1. 必須使用InnoDB存儲引擎
    解讀:支持事務、行級鎖、併發性能更好、CPU及內存緩存頁優化使得資源利用率更高
  2. 必須使用UTF8字符集不過現在基本上用 UTF8MB4
    **解讀:萬國碼,無需轉碼,無亂碼風險,節省空間 UTF8MB4支持圖像兼容4字節 **
  3. 數據表、數據字段必須加入中文註釋
    解讀:N年後誰tm知道這個r1,r2,r3字段是幹嘛的
  4. 禁止使用存儲過程、視圖、觸發器、Event
    解讀:高併發大數據的互聯網業務,架構設計思路是“解放數據庫CPU,將計算轉移到服務層”,併發量大的情況下,這些功能很可能將數據庫拖死,業務邏輯放到服務層具備更好的擴展性,能夠輕易實現“增機器就加性能”。數據庫擅長存儲與索引,CPU計算還是上移吧 劃重點:面試遇到要做存儲過程的公司還是走了吧
  5. 禁止存儲大文件或者大照片
    解讀:爲何要讓數據庫做它不擅長的事情?大文件和照片存儲在文件系統或者存雲服務也行,數據庫裏存URI多好

命名規範(這個知道就好)

  1. 只允許使用內網域名,而不是ip連接數據庫
  2. 庫名、表名、字段名:小寫,下劃線風格,不超過32個字符,必須見名知意,禁止拼音英文混用。
  3. 表名t_xxx,非唯一索引名idx_xxx,唯一索引名uniq_xxx
  4. 線上環境、開發環境、測試環境數據庫內網域名遵循命名規範
    這個根據公司要求,只要人員能輕易區分數據庫名稱
業務名稱:xxx
線上環境:dj.xxx.db
開發環境:dj.xxx.rdb
測試環境:dj.xxx.tdb
從庫在名稱後加-s標識,備庫在名稱後加-ss標識
線上從庫:dj.xxx-s.db
線上備庫:dj.xxx-sss.db

表設計規範

  1. 單實例表數目必須小於500
  2. 單表列數目必須小於30
  3. 表必須有主鍵,例如自增主鍵
主鍵遞增,數據行寫入可以提高插入性能,可以避免page分裂,減少表碎片提升空間和內存的使用
主鍵要選擇較短的數據類型,Innodb引擎普通索引都會保存主鍵的值,較短的數據類型可以有效的減少索引的磁盤空間,提高索引的緩存效率
無主鍵的表刪除,在row模式的主從架構,會導致備庫夯住
  1. 禁止使用外鍵(現在一般都建立邏輯外鍵),如果有外鍵完整性約束,需要應用程序控制
    解讀::外鍵會導致表與表之間耦合,update與delete操作都會涉及相關聯的表,十分影響sql 的性能,甚至會造成死鎖。高併發情況下容易造成數據庫性能,大數據高併發業務場景數據庫使用以性能優先

字段設計規範

  1. 必須把字段定義爲NOT NULL並且提供默認值
null的列使索引/索引統計/值比較都更加複雜,對MySQL來說更難優化
null 這種類型MySQL內部需要進行特殊處理,增加數據庫處理記錄的複雜性;
同等條件下,表中有較多空字段的時候,數據庫的處理性能會降低很多
null值需要更多的存儲空間,無論是表還是索引中每行中的 對null的處理時候,只能採用is null或is not null,而不能採用=、in、<>、!=
not in這些操作符號如:where name!=’shenjian’,如果存在name爲null值的記錄,查詢結果就不會包含name爲null值的記錄
  1. 禁止使用TEXT、BLOB類型
    解讀:會浪費更多的磁盤和內存空間,非必要的大量的大字段查詢會淘汰掉熱數據,導致內存命中率急劇降低,影響數據庫性能
  2. 禁止使用小數存儲貨幣
    解讀:使用整數吧,小數容易導致錢對不上
  3. 必須使用varchar(20)存儲手機號
    解讀:涉及到區號或者國家代號,可能出現±()
    手機號不會去做數學運算,所以請別弄成int類型
    varchar可以支持模糊查詢,例如:like“138%”
  4. 禁止使用ENUM,可使用TINYINT代替
    解讀:增加新的ENUM值要做DDL操作
    ENUM的內部實際存儲就是整數,你以爲自己定義的是字符串?

索引設計規範

  1. 單表索引建議控制在5個以內
  2. 單索引字段數不允許超過5個
    解讀:字段超過5個時,實際已經起不到有效過濾數據的作用了
  3. 禁止在更新十分頻繁、區分度不高的屬性上建立索引
    離散性原因(離散性太差,優化器可能都不會走索引)
    更新會變更B+樹,更新頻繁的字段建立索引會大大降低數據庫性能
    “性別”這種區分度不大的屬性,建立索引是沒有什麼意義的,不能有效過濾數據,性能與全表掃描類似
  4. 建立組合索引,必須把區分度高的字段放在前面
    解讀:能夠更加有效的過濾數據(其中有離散性原因和最左匹配原則的原因)

SQL使用規範

  1. 禁止使用SELECT *,只獲取必要的字段,需要顯示說明列屬性
    解讀:讀取不需要的列會增加CPU、IO、NET消耗、並且不能有效的利用覆蓋索引
  2. 禁止使用INSERT INTO t_xxx VALUES(xxx),必須顯示指定插入的列屬性
    解讀:容易在增加或者刪除字段後出現程序BUG
  3. 禁止使用屬性隱式轉換
    解讀:SELECT uid FROM t_user WHERE phone=13812345678 會導致全表掃描並且把phone字段轉換成int類型來,而不能命中phone索引
  4. 禁止在WHERE條件的屬性上使用函數或者表達式
    這個非常重要
    解讀:SELECT uid FROM t_user WHERE from_unixtime(day)>=‘2017-02-15’ 會導致全表掃描
    正確的寫法是:SELECT uid FROM t_user WHERE day>= unix_timestamp(‘2017-02-15 00:00:00’)
  5. 禁止負向查詢,以及%開頭的模糊查詢
    解讀:負向查詢條件:NOT、!=、<>、!<、!>、NOT IN、NOT LIKE等,會導致全表掃描,在b+tree中在不確定情況下不知道走那條索引、%開頭的模糊查詢,會導致全表掃描,不走索引
  6. 禁止大表使用JOIN查詢,禁止大表使用子查詢
    解讀:連接查詢在表多(一般3個)的或者大數據量情況下會非常慢(因爲大數據量進行笛卡爾積的匹對,會耗費很多內存進行中間結果計算)並且不利於維護表結構:這樣就應該在應用層做join拆分成單表查詢
    子查詢會產生臨時表,消耗較多內存與CPU,極大影響數據庫性能

    這裏引申出一個老師給我的答案:非常感謝Alex老師
子查詢會產生臨時表效率低,效率低體現在兩方面:
一、因爲要產生臨時表,所以空間複雜度很高,硬盤IO也很大;
二、因爲是嵌套查詢,所以時間複雜度也很高。查詢算法的好壞要從空間複雜度和時間複雜度兩個角度來思考。
JOIN查詢有兩個特點:
一、它的時間複雜度和嵌套查詢是一樣的,都是乘法級別的時間複雜度,舉個例子,兩張100條數據的表,兩張表的join查詢在
時間複雜度方面就相當於是查一張有10000條數據的表。如果是大表,一張表有1億條數據,乘法級別的時間複雜度是很難想象的。
二、再來說說空間複雜度:子查詢會產生臨時表,並不代表JOIN查詢就一定不會產生像臨時表一樣的東西,大多數的JOIN查詢不
會產生像臨時表一樣的東西,這是因爲數據量小,工作內存很夠用。想像一下,兩張有1億條數據的表,把數據全部導到內存中,
然後進行條件查詢比對,如果MySQL真的這樣做,那麼它可以改名叫redis緩存了。它的本質是硬盤數據庫,不是緩存,所以數據量大時,
臨時文件也一定要存在硬盤。也就是說,如果是JOIN查詢的是大表,其實和你想像的大表子查詢在過程方面是沒有本質區別的。
這不光是58的軍規,很多企業都是這樣的,領導沒有時間和每一個程序員去分析查詢算法的空間複雜度與時間複雜度,所以才定軍規。
  1. 禁止使用OR條件,必須改爲IN查詢
    解讀:舊版本MySQL的OR查詢是不能命中索引的,即使能命中索引,爲何要讓數據庫耗費更多的CPU幫助實施查詢優化呢?
    in 的查詢算法是類似於二分法查找,條件在多的情況下效率肯定要比or好
  2. 應用程序必須捕獲SQL異常,並有相應處理
    總結:大數據量高併發的互聯網業務,極大影響數據庫性能的都不讓用,不讓用喲!所以你出問題了要有相應的處理並且方便維護,及時“查漏補缺”
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章