字符編碼--小記

ASCII 碼

使用指定的7 位或8 位二進制數組合來表示128 或256 種可能的字符。標準ASCII 碼也叫基礎ASCII碼，使用7 位二進制數（剩下的1位二進制爲0）來表示所有的大寫和小寫字母，數字0 到9、標點符號，以及在美式英語中使用的特殊控制字符。其中：

0～31及127(共33個)是控制字符或通信專用字符（其餘爲可顯示字符），如控制符：LF（換行）、CR（回車）、FF（換頁）、DEL（刪除）、BS（退格)、BEL（響鈴）等；通信專用字符：SOH（文頭）、EOT（文尾）、ACK（確認）等；ASCII值爲8、9、10 和13 分別轉換爲退格、製表、換行和回車字符。它們並沒有特定的圖形顯示，但會依不同的應用程序，而對文本顯示有不同的影響。

32～126(共95個)是字符(32是空格），其中48～57爲0到9十個阿拉伯數字。

65～90爲26個大寫英文字母，97～122號爲26個小寫英文字母，其餘爲一些標點符號、運算符號等。

同時還要注意，在標準ASCII中，其最高位(b7)用作奇偶校驗位。所謂奇偶校驗，是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法，一般分奇校驗和偶校驗兩種。奇校驗規定：正確的代碼一個字節中1的個數必須是奇數，若非奇數，則在最高位b7添1；偶校驗規定：正確的代碼一個字節中1的個數必須是偶數，若非偶數，則在最高位b7添1。

後128個稱爲擴展ASCII碼。許多基於x86的系統都支持使用擴展（或“高”）ASCII。擴展ASCII 碼允許將每個字符的第8 位用於確定附加的128 個特殊符號字符、外來語字母和圖形符號。

GB2312碼

GB2312編碼適用於漢字處理、漢字通信等系統之間的信息交換，通行於中國大陸；新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟件都支持GB 2312。

基本集共收入漢字6763個和非漢字圖形字符682個。整個字符集分成94個區，每區有94個位。每個區位上只有一個字符，因此可用所在的區和位來對漢字進行編碼，稱爲區位碼。

GBK

GBK 向下與 GB 2312 編碼兼容，向上支持 ISO 10646.1國際標準，是前者向後者過渡過程中的一個承上啓下的產物。ISO 10646 是國際標準化組織 ISO 公佈的一個編碼標準，即 Universal Multilpe-Octet Coded Character Set（簡稱UCS），大陸譯爲《通用多八位編碼字符集》，臺灣譯爲《廣用多八位元編碼字元集》，它與 Unicode 組織的 Unicode 編碼完全兼容。ISO 10646.1 是該標準的第一部分《體系結構與基本多文種平面》。我國 1993 年以 GB 13000.1 國家標準的形式予以認可（即 GB 13000.1 等同於 ISO 10646.1）。

GBK編碼，是在GB2312-80標準基礎上的內碼擴展規範，使用了雙字節編碼方案，其編碼範圍從8140至FEFE（剔除xx7F），共23940個碼位，共收錄了21003個漢字，完全兼容GB2312-80標準，支持國際標準ISO/IEC10646-1和國家標準GB13000-1中的全部中日韓漢字，幷包含了BIG5編碼中的所有漢字。GBK編碼方案於1995年10月制定， 1995年12月正式發佈，目前中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP、WIN 7等都支持GBK編碼方案。

GB18030

國家標準GB18030-2005《信息技術中文編碼字符集》是我國繼GB2312-1980和GB13000.1-1993之後最重要的漢字編碼標準，是我國計算機系統必須遵循的基礎性標準之一。 GB18030有兩個版本：GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本，它的主要特點是在GBK基礎上增加了CJK統一漢字擴充A的漢字。GB18030-2005的主要特點是在GB18030-2000基礎上增加了CJK統一漢字擴充B的漢字。

兼容順序 GB18030-->GBK -->GB2312

Unicode

Unicode（統一碼、萬國碼、單一碼）是計算機科學領域裏的一項業界標準,包括字符集、編碼方案等。Unicode 是爲了解決傳統的字符編碼方案的侷限而產生的，它爲每種語言中的每個字符設定了統一併且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。

ASCII碼，一個字符佔一個字節（8個bit位）

Uincode 一個字符佔兩個字節（16個bit位）

UTF-8

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字符編碼，又稱萬國碼。UTF-8用1到6個字節編碼Unicode字符。

UTF-8中，英文字符保存爲ASCII格式，佔用1個字節。中文保存爲UTF-8格式，常用的中文佔用3個字節

字符編碼--小記

SQL優化-20231016

字符編碼--小記

python小記--解釋器

python小記--格式化輸出

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結