chardet庫：識別文件的編碼格式

原創

梦寐_

2020-02-23 07:17

chardet庫文檔:https://chardet.readthedocs.io/en/latest/usage.html

模塊介紹

Chardet：通用字符編碼檢測器
檢測字符集範圍：

ASCII，UTF-8，UTF-16（2種變體），UTF-32（4種變體）
Big5，GB2312，EUC-TW，HZ-GB-2312，ISO-2022-CN（繁體中文和簡體中文）
EUC-JP，SHIFT_JIS，CP932，ISO-2022-JP（日文）
EUC-KR，ISO-2022-KR（韓文）
KOI8-R，MacCyrillic，IBM855，IBM866，ISO-8859-5，windows-1251（西里爾文）
ISO-8859-5，windows-1251（保加利亞語）
ISO-8859-1，windows-1252（西歐語言）
ISO-8859-7，windows-1253（希臘語）
ISO-8859-8，windows-1255（視覺和邏輯希伯來語）
TIS-620（泰國語）d'y

當python程序中某一個數據文件不知道編碼時，可使用chardet第三方庫來檢測，代碼如下（path中填對應文件路徑即可

import chardet
 
if __name__ == '__main__':
	path='***'
	f=open(path,'rb')
	data=f.read()
	print(chardet.detect(data))
	# {'language': '', 'confidence': 0.73, 'encoding': 'Windows-1252'}

detect函數只需要一個非unicode字符串參數，返回一個字典。該字典包括判斷到的編碼格式及判斷的置信度。
chardet.detect() 的返回值，爲一個字典：

{'language': '', 'confidence': 0.73, 'encoding': 'Windows-1252'}

得到文件的編碼方式，可以才採用字典的方式

  codedetect = chardet.detect(data)["encoding"]    #檢測得到編碼方式

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

chardet庫：識別文件的編碼格式

模塊介紹

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

使用fake_useragent隨機生成user_agent

scikit-learn：降維算法PCA和SVD

爬蟲：解決亂碼問題

Python 使用 attrs 和 cattrs 實現面向對象編程

Python3.7中的Dataclasses

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結