哈是什麼編碼?Html實體

1 問題的提出

IOS使用XMPPFramework實現即時通訊時,需要加入羣組,加入羣組的packet如下:

<presence to="&#x54C8;&#x54C8;&#x54C8;@conference.testgroupaapplication/18210731996">
    <x xmlns="http://jabber.org/protocol/muc"/>
</presence>

2 怎麼轉換成可讀的文字?

eval("'"+"&#x54C8;&#x54C8;&#x54C8;".replace(/&#x(.*?);/g,"\\u$1")+"'")
準換結果如下:
發現了什麼?這個函數就是把前面的&#x換成了\\u,\\u54C8是什麼?Unicode編碼啊!

注意:這只是參考中的其中一種方法。

3 這究竟是什麼?

Html字符實體:Html中的預留字符必須被轉換爲字符實體。如小於號爲”<”。字符實體的格式如下:

// 格式1:實體名稱(相對於實體編碼,更加方便記憶,但並非所有瀏覽器都兼容),如小於號&lt;
&entity_name;

// 格式2:實體編碼,如小於號&#60;
&#entity_number;
PS:這好像就是轉義字符啊!

Html4.0.1支持 ISO 8859-1 (Latin-1) 字符集。所以其中包含漢字,這些漢字也都有對應的實體編碼。

參考

  1. nodejs 爬蟲遇到形如;安卓端的編碼如何轉換爲中文?
  2. w3cschool-字符實體
  3. w3cschool-ISO 8859-1 符號實體
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章