MySQL 數據表優化設計(三):CHAR 和 VARCHAR 怎麼選?

MySQL 支持字符串的數據類型並不多,但是卻有多種變化形式。MySQL 5.0以後更是支持每一列字符串可以有自己的字符集以及排序規則,這使得數據表設計更爲複雜。本篇介紹字符類型的數據表字段 CHAR 和 VARCHAR 該如何選擇。

VARCHAR 和 CHAR 類型

VARCHAR 和 CHAR 是兩種主要的字符串類型,用於存儲字符。不幸的是,由於實現的方式依賴於存儲引擎,因此很難解釋這些字符串在磁盤和內存中如何存儲,除了除了常用的 InnoDB 和 MyISAM 外,假設你使用了其他存儲引擎,應當仔細閱讀存儲引擎的文檔。

VARCHAR 存儲可變長度的字符串,也是最常用的字符數據類型。相比固定長度的類型,VARCHAR 所需的存儲空間更小,它會盡可能少地使用存儲空間(例如,短的字符串佔據的空間)。對於 MyISAM 來說,如果創建表的時候指定了 ROW_FORMAT=FIXED 的話,那麼會使用固定的空間存儲字段而導致空間浪費。VARCHAR 使用1-2個額外的字節存儲字符串的長度:當最大長度低於255字節的時候使用1個字節,如果更多的話就使用2個字節。因此,拉丁字符集的 VARCHAR(10)會使用11個字節的存儲空間,而 VARCHAR(1000)則會使用1002個字節的存儲空間。

VARCHAR 由於能夠節省空間,因此可以改善性能。但是,由於長度可變,當更新數據表的時候數據行的存儲空間會變化,這一定程度上會帶來額外的開銷。如果數據行的長度導致原有的存儲位置無法存放,那麼不同的存儲引擎會做不同的處理。例如 MyISAM 可能產生數據行的碎片,而 InnoDB 需要進行磁盤分頁來存放更新後的數據行。

通常,如果最大的列長度遠遠高於平均長度的話(例如可選的備註字段),使用 VARCHAR 是划算的,同時如果更新的頻次很低,那麼碎片化也不會是一個問題。需要注意的是,如果使用的是 UTF-8字符集,則實際存儲的字節長度是根據字符定的。對於中文,推薦的存儲字符集是 utf8mb4。

CHAR 類型的長度是固定的,MySQL 會對每個字段分配足夠的存儲空間。存儲CHAR 類型值的時候,MySQL 會移除後面多出來的空字符。值是使用空字符進行對齊以便進行比較。對於短的字符串來說,使用 CHAR 更有優勢,而如果所有的值的長度幾乎一致的話,就可以使用 CHAR。例如存儲用戶密碼的MD5值時使用 CHAR 就更合適,這是因爲 MD5的長度總是固定的。同時,對於字段值經常改變的數據類型來說,CHAR 相比 VARCHAR 也更有優勢,因爲 CHAR 不會產生碎片。對於很短的數據列,使用 CHAR 比 VARCHAR更高效,例如使用CHAR(1)存儲邏輯值的 Y 和 N,這種情況下只需要1個字節,而 VARCHAR 需要2個字節。
對於移除空字符這個特性會感覺奇怪,我們舉個例子:

CREATE TABLE t_char_varchar_test (
  id INT PRIMARY KEY,
  char_col CHAR(10),
  varchar_col VARCHAR(10)
);

INSERT INTO t_char_varchar_test 
VALUES 
(1, 'string1', 'string1'),
(2, '  string2', '  string2'),
(3, 'string3  ', 'string3  ');

按上面的結果插入數據表後,string2中的前置空格不會移除,但使用 CHAR 類型存儲時,string3尾隨空格會被移除,使用 SQL 查詢結果來檢驗一下:

SELECT CONCAT("'", char_col, "'"), CONCAT("'", varchar_col, "'") 
FROM t_char_varchar_test WHERE 1

得出來的結果如下,可以看到 CHAR 類型的 string3後面的空格被移除了,而 VARCHAR類型的沒有。這種情況大多數時候不會有什麼問題,實際在應用中也經常會使用 trim 函數移除兩端的空字符,但是如果確實需要存儲空格的時候,那就需要注意不要選擇使用 CHAR 類型:



數據如何存儲是由存儲引擎決定的,而且存儲引擎處理固定長度和可變長度的數據的方式並不相同。Memory 引擎使用固定大小的行,因此它需要分配最大可能的存儲空間——即便數據長度是可變的。但是,對於字符串的對齊和空字符截斷是由 MySQL 服務端完成的,因此所有存儲引擎都是一樣的。

與 CHAR 和 VARCHAR 相似的是 BINARY和 VARBINARY,用於存儲二進制字節字符,BINARY 的對齊使用字符0的字節值來對齊,並且再獲取值的時候不會截斷。如果需要使用字符的字節值而不是字符的話,使用 BINARY 會更高效,這是因爲比較時,一方面不需要考慮大小寫,另一方面是MySQL一次只比較一個字節。

結語:在實際數據表設計中,大多數情況下會選擇使用 VARCHAR,但 VARCHAR 需要額外的1-2個字節存儲字符串長度。需要注意的是在應用中最好能夠限定字段的最大長度,從而可以使得數據表儘可能使用短的 VARCHAR來提高效率。同時,對於固定長度、長度很短或長度變化很小的字符類型,推薦使用 CHAR 類存儲,以提高存儲效率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章