字符编码详解总结

原創

执笔人

2020-06-27 07:23

计算机只会识别0和1
计算机处理数据得时候，将其他进制转换为2进制
计算机处理文本，会先将文本转换为数字
计算机在最早设计的时，采用8个比特(bit)表示一个字节(byte)，所以一个字节表示的最大整数就是255（二进制11111111=十进制255）
计算机由美国发明，所以最早只有127个字符被编码到计算机中，也就是大小写字母、数字和一些符号，这个编码表就是ASCII编码（即一个字母对应一个数字）
中文对应的是GB2312编码
日文对应的是Shift_JIS编码
韩国把韩文编到Euc-kr里’
各国有各国的标准，所以在多国语言混合的文本中，显示出来会乱码，所以Unicode就应运而生。
Unicode把所有的语言都统一了编码，就不会有乱码的问题了
unicode中常用2个字节表示一个字符（生僻的，可能是4个字节）
ASCII编码是一个字节，而转换为Unicode编码后，就变成了2个字节，所以说如果基本为英文的情况下，这样的所需要的存储空间就大了一倍
本着节约的精神，就出现了可变长的UTF-8编码
UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字符，常用的英文编码为1个字符，汉字为3个字符，生僻的字符为4-6个字符
下面是ASCII、Unicode和UTF-8的关系表

字符 ASCII Unicode UTF-8

A 01000001 00000000 01000001 01000001

中 x 01001110 00101101 11100100 10111000 10101101
在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。
用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：
浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

所以你看到很多网页的源码上会有类似的信息，表示该网页正是用的UTF-8编码。

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

字符编码详解总结

985 硕士程序员，空窗 4 个月没有 Offer！

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

387. 字符串中的第一個唯一字符.py-----leetcode刷題（python解題）

《海闊天空》之首章：見證8633英雄機組奇蹟的“那一天”

python數據類型的性能--算法複雜度

windows7上安裝docker詳細圖文教程

字符編碼詳解總結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結