測試表中數據如下:
postgres=# select * from test;
street
----------
澄江街道
澄江街道
(2 行記錄)
然後我們執行如下sql:
postgres=# select * from test where street='澄江街道';
street
----------
澄江街道
(1 行記錄)
問題已經暴露,明明兩條‘澄江街道’的記錄啊!咋查出來就一條了??
接下來進行如下檢查:
postgres=# select street, length(street) from test;
street | length
----------+--------
澄江街道 | 5
澄江街道 | 4
(2 行記錄)
遇到這種情況就問你懵不懵逼??一樣的字符串長度一個5一個4啊!!日狗,混入不可見字符了。
可能這時已經有人想出了辦法,這種辦法如下:
update test set street='澄江街道' where street like '%澄江街道%';
postgres=# start transaction;
START TRANSACTION
postgres=# update test set street='澄江街道' where street like '%澄江街道%';
UPDATE 2
postgres=# select * from test where street='澄江街道';
street
----------
澄江街道
澄江街道
(2 行記錄)
postgres=# rollback;
ROLLBACK
哈哈,皆大歡喜,問題解決了。但是,如果這種數據很多呢???
你是要一條一條的update咯??
不幸的是,本人遇到的這種數據就很多(因爲數據是從excel中導入進來的)。
然後我就找到了如下這種終極方案:
先確定這種不可見字符到底是哪個字符(一般情況一個csv文件的中如果有不可見字符應該也都是同一個不可見字符)
postgres=# select encode(street::bytea,'escape') from test;
encode
--------------------------------------------------------------
\357\273\277\346\276\204\346\261\237\350\241\227\351\201\223
\346\276\204\346\261\237\350\241\227\351\201\223
(2 行記錄)
那段\357\273\277多刺眼啊。。。。。。
如果你有仇人可以考慮有這種方法報復他了
然後確定是否可以將該不可見字符過濾掉:
postgres=# select encode(street::bytea,'escape') from test where btrim(street::bytea,E'\\357\\273\\277'::bytea) = '澄江街道';
encode
--------------------------------------------------------------
\357\273\277\346\276\204\346\261\237\350\241\227\351\201\223
\346\276\204\346\261\237\350\241\227\351\201\223
(2 行記錄)
查到了兩條記錄,用這個btrim看來確實是把字符串裏的\357\273\277全部去除了。
接下來就要update表啦~
postgres=# update test set street=btrim(street::bytea,E'\\357\\273\\277'::bytea);
UPDATE 2
update成功。
查看數據:
postgres=# select * from test;
street
----------------------------
\xe6be84e6b19fe8a197e98193
\xe6be84e6b19fe8a197e98193
(2 行記錄)
哈哈,中文變成16進制的了。
不過不用捉急。
postgres=# select convert_from(street::bytea,'UTF8') from test;
convert_from
--------------
澄江街道
澄江街道
(2 行記錄)
再轉回UTF8編碼不就行了?(亂碼問題是所有問題中最簡單的問題,沒有之一)
按照這種方法update一下表:
postgres=# update test set street=convert_from(street::bytea,'UTF8');
UPDATE 2
postgres=# select * from test;
street
----------
澄江街道
澄江街道
(2 行記錄)
正常的數據又回來啦。
postgres=# select * from test where street='澄江街道';
street
----------
澄江街道
澄江街道
(2 行記錄)
postgres=# select street, length(street) from test;
street | length
----------+--------
澄江街道 | 4
澄江街道 | 4
(2 行記錄)
不可見字符的問題也得到了解決。