到底什麼是UTF-8 BOM頭

BOM是什麼

Unicode的學名是"Universal Multiple-Octet Coded Character Set",簡稱爲UCS。UCS可以看作是"Unicode Character Set"的縮寫。在UCS 編碼中有一個叫做 “Zero Width No-Break Space”,中文譯名作“零寬無間斷間隔”的字符,它的編碼是 FEFF。而 FFFE 在 UCS 中是不存在的字符,所以不應該出現在實際傳輸中。UCS 規範建議我們在傳輸字節流前,先傳輸字符 “Zero Width No-Break Space”。這樣如果接收者收到 FEFF,就表明這個字節流是 Big-Endian 的;如果收到FFFE,就表明這個字節流是 Little- Endian 的。因此字符 “Zero Width No-Break Space” (“零寬無間斷間隔”)又被稱作 BOM(即Byte Order Mark)。

UTF-8 BOM頭又是什麼

UTF-8以字節爲編碼單元因此不需要 BOM 來表明字節順序,但可以用 BOM 來表明編碼方式。字符 “Zero Width No-Break Space” 的 UTF-8 編碼是 EF BB BF。所以如果接收者收到以 EF BB BF 開頭的字節流,就知道這是 UTF-8編碼了。

在這裏插入圖片描述
因此UTF-8編碼的字符串開頭處的三個bytes 0xef,0xbb,0xbf就稱爲UTF-8 BOM頭。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章