计算机只能识别二进制代码,而人只能看懂文字符号,这两者之间必须要定义一个转换规则来使人和计算机识别的是同一个东西,这个规则就是人们制定的字符集。
一、字符集概述
字符集的基础是ASCII码,基本上后来所有的字符集都兼容ASCII字符集,但是,由于各公司、各政府、各机构等创建的字符集编码规则各不相同,这就给软件移植及协同开发带来困难,因此有必要统一字符编码。
Unicode字符集就是后来经过发展得到公认的一个标准,也是现在基本上通行的一个标准,它基本上概括了从古至今人类所使用过的所有文字和符号。
中国结合国际标准及汉字的特性制定了GBK、GB18030等字符集,下表将一些常用字符集的特点进行了归纳:
二、怎样选择合适的字符集
对数据库来说,字符集至关重要,存入数据库的内容都需要通过字符集进行转换,它对数据库的存储性能、处理性能,以及日后系统的移植、推广都会有影响。
MySQL支持包括UTF-8、utf8mb4等几十种字符集,如何进行选择呢?一般需要根据需求及各字符集本身的特点进行权衡,主要考虑以下几点:
- 满足应用支持语言的需要,一般Unicode类型就行,对MySQL来说基本上就是UTF-8。
- 如果涉及已有数据的导入,就需要考虑当前字符集是否对导入的有兼容性,否则可能有些会无法正确导入。
- 如果数据库只需支持一般中文,且数据量很大,性能要求也高,那就应该选双字节定长编码中文字符集,如GBK。相反,如果主要处理英文字符那UTF-8更好。
- 如果数据库需要做大量的字符运算,如比较排序等,那么选择定长字符集更好,因为它的处理速度快。
- 如果所有客户端程序都支持相同的字符集,那么应优先选择该字符集作为数据库字符集,这样可以避免字符集转化带来的开销和数据损失。
三、MySQL支持的字符集简介
MySQL支持很多字符集,在同一台服务器、同一个数据库甚至同一个表的不同字段都可以指定不同的字符集,这与Oracle等数据库相比灵活性更高,Oracle的同一个数据库只能使用同一种字符集。
使用 show character set 命令查看所有可用字符集:
mysql> show character set;
+----------+---------------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+---------------------------------+---------------------+--------+
| big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
| dec8 | DEC West European | dec8_swedish_ci | 1 |
| cp850 | DOS West European | cp850_general_ci | 1 |
| hp8 | HP West European | hp8_english_ci | 1 |
| koi8r | KOI8-R Relcom Russian | koi8r_general_ci | 1 |
| latin1 | cp1252 West European | latin1_swedish_ci | 1 |
| latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 |
| swe7 | 7bit Swedish | swe7_swedish_ci | 1 |
| ascii | US ASCII | ascii_general_ci | 1 |
| ujis | EUC-JP Japanese | ujis_japanese_ci | 3 |
| sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 |
| hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 |
| tis620 | TIS620 Thai | tis620_thai_ci | 1 |
| euckr | EUC-KR Korean | euckr_korean_ci | 2 |
| koi8u | KOI8-U Ukrainian | koi8u_general_ci | 1 |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 |
| greek | ISO 8859-7 Greek | greek_general_ci | 1 |
| cp1250 | Windows Central European | cp1250_general_ci | 1 |
| gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 |
| latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
| armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 |
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 |
| cp866 | DOS Russian | cp866_general_ci | 1 |
| keybcs2 | DOS Kamenicky Czech-Slovak | keybcs2_general_ci | 1 |
| macce | Mac Central European | macce_general_ci | 1 |
| macroman | Mac West European | macroman_general_ci | 1 |
| cp852 | DOS Central European | cp852_general_ci | 1 |
| latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 |
| cp1251 | Windows Cyrillic | cp1251_general_ci | 1 |
| utf16 | UTF-16 Unicode | utf16_general_ci | 4 |
| utf16le | UTF-16LE Unicode | utf16le_general_ci | 4 |
| cp1256 | Windows Arabic | cp1256_general_ci | 1 |
| cp1257 | Windows Baltic | cp1257_general_ci | 1 |
| utf32 | UTF-32 Unicode | utf32_general_ci | 4 |
| binary | Binary pseudo charset | binary | 1 |
| geostd8 | GEOSTD8 Georgian | geostd8_general_ci | 1 |
| cp932 | SJIS for Windows Japanese | cp932_japanese_ci | 2 |
| eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 |
| gb18030 | China National Standard GB18030 | gb18030_chinese_ci | 4 |
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.00 sec)
MySQL的字符集包括字符集和校对规则两个概念。字符集用来定义存储字符串的方式,校对规则用来定义比较字符串的方式,一个字符集可以对于多种校对规则。
使用 show collation like ’ *** ‘ 命令来查看相应字符集的校对规则:
mysql> show collation like 'gbk%';
+----------------+---------+----+---------+----------+---------+
| Collation | Charset | Id | Default | Compiled | Sortlen |
+----------------+---------+----+---------+----------+---------+
| gbk_chinese_ci | gbk | 28 | Yes | Yes | 1 |
| gbk_bin | gbk | 87 | | Yes | 1 |
+----------------+---------+----+---------+----------+---------+
2 rows in set (0.00 sec)
校对规则的命名约定:以字符集名开始,包含语言名,以_ci(大小写不敏感)、_cs(大小写敏感)、_bin(二元,基于字符编码的值而与语言无关)结束。
下面的例子就介绍了字母根据校对规则是否对大小写的敏感:
mysql> select case when 'A' collate gbk_chinese_ci = ('a' collate gbk_chinese_ci) then 1 else 0 end;
+---------------------------------------------------------------------------------------+
| case when 'A' collate gbk_chinese_ci = ('a' collate gbk_chinese_ci) then 1 else 0 end |
+---------------------------------------------------------------------------------------+
| 1 |
+---------------------------------------------------------------------------------------+
1 row in set (0.00 sec)
mysql> select case when 'A' collate gbk_bin = ('a' collate gbk_bin) then 1 else 0 end;
+-------------------------------------------------------------------------+
| case when 'A' collate gbk_bin = ('a' collate gbk_bin) then 1 else 0 end |
+-------------------------------------------------------------------------+
| 0 |
+-------------------------------------------------------------------------+
1 row in set (0.00 sec)
四、MySQL字符集的设置
MySQL的字符集和校对规则有4个级别的默认设置:服务器级、数据库级、表级和字段级;它们分别在不同的地方设置,作用也不同。
4.1 服务器的字符集和校对规则
首先通过以下命令来查看当前服务器的的字符集和校对规则:
mysql> show variables like 'character_set_server';
+----------------------+-------+
| Variable_name | Value |
+----------------------+-------+
| character_set_server | utf8 |
+----------------------+-------+
1 row in set, 1 warning (0.00 sec)
mysql> show variables like 'collation_server';
+------------------+-----------------+
| Variable_name | Value |
+------------------+-----------------+
| collation_server | utf8_general_ci |
+------------------+-----------------+
1 row in set, 1 warning (0.00 sec)
一般通用的编码规则就选utf8,如果有需要要更改,那么在服务器端基本有以下三种方式:
- (Linux环境下)直接修改配置文件my.cnf;具体步骤如下:1.关闭MySQL;2.在配置文件里面的[mysqld]字段下面[mysqld safe]字段前面添加参数“ character-set-server=utf8 " ;3.重启MySQL;4.使用命令’ show variables like " %char%" ‘ 来查看结果。
- (windows环境下)修改的是my.ini配置文件:步骤与上面的基本一样,只不过需要注意的是MySQL版本如果在5.53之前,添加的参数是‘ default-character-set=utf8 ' ,在此之后就是“ character-set-server=utf8 ";另外,如果这样设置后发现没有更改成功,那么可能与windows系统有关,只需要再在上面的参数下添加 " [client] default-character-set=utf8 " (注意分两行写)应该就可以了。
- 在启动选项中指定;例如:mysqld --character-set-server=utf8;
- 在安装MySQL时就指定好字符集(推荐)
如果没有指定都会使用默认值,比如上面都指定了字符集没有指定校对规则,那么就会使用默认的,如果不想使用默认的,那么只需要在指定字符集的同时指定校对规则即可。
4.2 数据库的字符集和校对规则