Unicode和UTF-8转换规则

原創

2020-06-22 16:50

绪论

看博客看到一件比较好玩的事情，以前从来不知道编码是这样转换的。

正文

规则

Unicode	UTF-8
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

说明
列如“汉”字的Unicode编码是6C49。
6C49在0800 - FFFF之间，所以要用三字节模板：1110xxxx 10xxxxxx 10xxxxxx。
将6C49写成二进制是：0110 1100 0100 1001，将这个比特流按三字节模板的分段方法分为：0110 110001 001001。
依次代替模板中的x，得到：1110-0110 10-110001 10-001001，即E6 B1 89，这就是其UTF-8编码。

是不是有点意思哈。

（若有什么错误，请留言指正，3Q）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

最新文章

最新評論文章