chardet字符集檢測模塊

chardet字符集檢測模塊


chardet 字符集檢測模塊

需要安裝

pip install chardet 

可以檢測網頁,也可以檢測字符串

import urllib
import chardet

'''
從網頁的頭部信息可以查看的內容
網頁的大小,編碼等(有時候可能爲空)

可以使用chardet來檢測網頁的編碼
'''

url = 'http://baidu.com'

headerInfo = urllib.urlopen(url).info()

# headerInfo.getparam('charset')

context = urllib.urlopen(url)

print chardet.detect(context)

返回的是一個字典,可以通過字典的key拿到對應的值

result = chardet.detect(context)

print result['encoding']

代碼整理

import urllib
import chardet

'''
代碼的封裝
'''

def auto_getCharset(targetUrl):
    context = urllib.urlopen(targetUrl).read()
    result = chardet.detect(context)
    return result['encoding']

if __name__=='__main__':
    urls = ['http://www.csdn.net/','http://www.imooc.com/','http://www.51cto.com/',
            'http://www.mukedaba.com/','http://www.nowcoder.com/']
    for url in urls:
        print url , auto_getCharset(url)
發佈了266 篇原創文章 · 獲贊 9 · 訪問量 23萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章