UTF-8檢測

UTF-8檢測

原創

2020-06-24 22:05

W3C上提供了一種複雜的檢測方法：

[/x09/x0A/x0D/x20-/x7E]              # ASCII
| [/xC2-/xDF][/x80-/xBF]             # non-overlong 2-byte
| /xE0[/xA0-/xBF][/x80-/xBF]        # excluding overlongs
| [/xE1-/xEC/xEE/xEF][/x80-/xBF]{2} # straight 3-byte
| /xED[/x80-/x9F][/x80-/xBF]        # excluding surrogates
| /xF0[/x90-/xBF][/x80-/xBF]{2}     # planes 1-3
| [/xF1-/xF3][/x80-/xBF]{3}          # planes 4-15
| /xF4[/x80-/x8F][/x80-/xBF]{2}     # plane 16

drupal裏有一個更簡單的方法：preg_match('/^./us', $text) == 1

字符串越長，準確率越高。當然，檢測不可能百分百準確，比如說GBK的“訊”字就不能正確檢測。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

使用skopeo同步鏡像

linux 查找文件內容及其它

php模擬python的 if name == 'main':

php unicode轉utf-8

UTF-8檢測

解決TIME_WAIT過多問題(轉)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結