Unicode 與 UTF-8

原創

2018-08-31 00:27

什麼是 Unicode

Unicode（統一碼、萬國碼、單一碼）是計算機科學領域裏的一項業界標準,包括字符集、編碼方案等。Unicode 是爲了解決傳統的字符編碼方案的侷限而產生的，它爲每種語言中的每個字符設定了統一併且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。1990年開始研發，1994年正式公佈

什麼是 UTF-8 編碼

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字符編碼，又稱萬國碼。由Ken Thompson於1992年創建。現在已經標準化爲RFC 3629。UTF-8用1到6個字節編碼Unicode字符。用在網頁上可以統一頁面顯示中文簡體繁體及其它語言（如英文，日文，韓文）。

中文是如何進行 UTF-8 編碼的

從上面可以得知, 包括中文在 unicode 編碼集也會有對應的二進制碼(目前都是以 16 進製表示)
比如 你好 對應的 unicode 爲 \u4f60\u597d 去掉前面的 \u 轉義符號剩下 4f60 597d , 編碼規則如下

Unicode	bit數	UTF-8
0000 ~ 007F	0~7	0XXX XXXX
0080 ~ 07FF	8~11	110X XXXX 10XX XXXX
0800 ~ FFFF	12~16	1110XXXX 10XX XXXX 10XX XXXX
1 0000 ~ 1F FFFF	12~16	11110XXX 10XX XXXX 10XX XXXX 10XX XXXX

編碼以此類推
你好 對應的 Unicode 編碼爲 4f60 597d 範圍在 0800 ~ FFFF 對應的 UTF-8 格式爲 1110 XXXX 10XX XXXX 10XX XXXX, 4f60 對應的二進制編碼爲 01001111 01100000 把 X 按順序填進去得到 11100100 10111101 10100000 再轉爲 16 進製得到 E4BDA0

python 中字符串前面加個 u, 如: u’你好’, 表示的是 你好 的 Unicode 編碼

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

POJ 3283 Card Hands Trie樹

這題用的是字典樹做，題意是給你N個人的牌，每個人的牌從後往前是一條鏈，如果鏈的深度相同且值一樣則無需創建節點，直接進入下一個，問最後共有幾個節點。這題運用映射的思想，把每種類型不同的牌映射爲1 - 52，這樣就能寫字典樹了。#incl

萌即是正义

2020-07-06 07:42:26

Light OJ 1129 Consistency Checker

字典樹模擬題，問是否會有字符串是另一字符串的前綴，有輸出NO，沒有輸出YES。#include <stdio.h> #include <string.h> #include <stdlib.h> #include <iostream>

萌即是正义

2020-07-06 07:04:10

HDU 4749 Parade Show Kmp

這題用的是kmp算法，題意是給出兩個隊列，每個隊列的人的高度，讓你求隊列二相對於隊列一高低趨勢匹配的數目總共有多少。高低趨勢匹配就是2 4 2 4 2；1 2 1 2 1；2 比 4 小；1 比 2 小，這就匹配了，一整個隊列都符合，

萌即是正义

2020-07-06 07:04:10

C/C++, 字符庫函數

頭文件#include <ctype.h> 、#include <cctype> 1. bool isalnum（char c）判斷一個字符是否爲字母或數字 2. bool isalpha(char c) 判斷一個字符是否爲

2020-07-04 13:59:46

php中一些常用且好用的字符處理函數(一)

自己總結了一些自己曾經使用的字符處理函數。共勉。。。張存超php技術博客到目前爲止我其實還是算是一個php新手，這是我係統學習的第一個編程語言，其實所有的編程語言都是有共通之處的，就我的理解而言，所有的操作其實都是對字符的操作，

地狱中仰望天堂

2020-06-25 22:35:52

xml，json，yaml實例

1.XML 三種形式中間有內容沒有中間內容，省略形式註釋形式 xml實例 2.json 格式 "key":"value" "key":["value1","value2"] "

2020-06-24 22:08:02

python安全編程

基礎： 1.正則 1.1什麼是正則表達式正則表達式使用單個字符串來描述，匹配一系列符合某個句法規則的字符串。簡單理解，就是對字符串的檢索匹配和處理。 Python通過re模塊對正則表達式支持：re.findall(

2020-06-24 16:57:01

WEB基礎教程

第1節:HTML5HTML (HyperText Markup Language)，即超文本標記語言結構：標籤成對出現，主要由三部分組成html head head body b

2020-06-24 16:56:59

解題報告——第一次只出現一次的字符

題目：在一個字符串（1<=字符串長度<=10000，全部有字母組成）中找到第一個出現一次的字符的位置。若爲空串，返回-1。思路：簡單的哈希問題，char佔一個字節，8位，最多表示256種字符。時間複雜度O（n），空間複雜

2020-06-20 18:17:10

hd 2719 The Seven Percent Solution

The Seven Percent Solution Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Su

2020-06-19 07:29:59

字符編碼全總結

引語:博主以前以爲編碼方式很簡單,所有沒有很重視,今天研究了一番,沒有想象中的簡單,花了大半天時間總結如下: 一.編碼方式 1.ASCII編碼(American Standard Code for Information Interc

西雅图_Seattle

2020-06-19 06:57:58

HTTP RIVER

HTTP River服務 HTTP River服務從啓用Predix Machine的邊緣設備向使用HTTPS的Predix雲傳輸數據。用例示例 Hoover Spillway從機器網關收集數據，然後對其進行處理，以確定數據

2020-06-19 02:01:17

關於字符ASCII與字符相加輸出的錯誤

# include <iostream> using namespace std; int main() { char a = ('1'-'0'+'4'-'0')%10 ; a = a + '0'; //a = 5 + '0';

2020-06-16 13:40:36

C 字符/字符串常用函數

string.h中常用函數 char * strchr(char * str ,char ch); 從字符串str中查找首次出現字符ch的位置，若存在返回查找後的地址，若不存在則返回NULL void main(){ char a

破船不会沉

2020-06-16 11:43:40

爲什麼byte的取值範圍是-128-127

概念：負數的補碼是該數絕對值的原碼按位取反 ,然後對整個數加 1 步驟： 1.確定byte是1個字節，也就是8位 2.最大的應該是0111 1111，因爲第一位是符號位，0表示正數 3.最小的應該是1000

2020-06-16 06:36:27

24小時熱門文章

最新文章

最新評論文章