字符集(Charset)

ASCII

基於拉丁字母的計算機編碼，通用單字節編碼，1個字節代表1個字符。主要針對英語和西歐語言。漢子爲多字節數據，ASCII是無法編碼中文漢子的。

國標編碼，由中國製定編碼字符集，一般用2個字節代表一個字符，GB2312對中文進行分區分級編碼，共收錄7000多個。

爲了統一各種語言編碼規則而生，又被稱爲統一編碼。統一使用2個字節代表1個字符，特殊字符采用4字節。

爲了解決Unicode編碼的一些缺陷，比如英文及符號屬於單字節字符，採用2字節編碼，浪費空間。UTF-8字符屬於動態編碼字符集，是在Unicode基礎上進行改進的一種編碼規則。根據不同數字大小進行編碼爲1-6個字節，英文及符號:1字節，中文:3字節，生僻字：4-6字節。

collation 用於指定數據集的排序規則，以及字符集的比對規則，當我們在進行order by 時，mysql服務器會按照設置的collation進行比對數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.