python3暴力刪除html中gbk不可編碼字符

原創

2018-08-21 23:03

苦逼大學僧的日常。。。

狗真是日了我了……
UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\ufeff’ in position 0: illegal multibyte sequence
寫個爬蟲被這東西折磨了一天。。。不光BOM的feff，還有各種解碼不出來的字符，啥玩意都有。。
各種二分找位置（他提示的位置是不準的），看是什麼，加判斷，最後我崩潰了……
決定把這些解碼不出來的字符一一刪除
利用輸出的提示信息來確定不可見字符，然後將不可見字符刪除，重複這個過程
缺點就是會建立一個kill.html的文件以及由於刪除了開頭的\ufeff所以生成的字符串輸出到文件裏打開會亂碼。。。

import re

def killAnUnseen(s):
    try:
        f = open('kill.html', 'w');
        f.write(s);
        f.close()
    except UnicodeEncodeError as err:
        info = str(err);
        st = re.search('\\\\U[a-f0-9]{8}|\\\\u[a-f0-9]{4}|\\\\x[a-f0-9]{2}', info).group()[2:];
        x = int(st, 16);
        return (s.replace(chr(x), ""), True)
    return s, False

def killUnseen(s):
    while(True):
        s, res = killAnUnseen(s)
        if res == False:
            return s

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python3暴力刪除html中gbk不可編碼字符

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

BZOJ 4292 PA2015 Równanie 枚舉

UOJ#50 【UR#3C】鏈式反應 FFT求解多項式線性常微分方程

codeforces #568B Symmetric and Transitive 快速傅里葉變換

BZOJ 4320 ShangHai2006 Homework 並查集

HDU 5909 Tree Cutting 樹形DP+快速沃爾什變換

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結