PostgreSQL 去除字符串中的不可見字符 終極方法

測試表中數據如下:

postgres=# select * from test;
  street  
----------
 澄江街道
 澄江街道
(2 行記錄)

然後我們執行如下sql:

postgres=# select * from test where street='澄江街道';
  street  
----------
 澄江街道
(1 行記錄)

問題已經暴露,明明兩條‘澄江街道’的記錄啊!咋查出來就一條了??

接下來進行如下檢查:

postgres=# select street, length(street) from test;
  street  | length 
----------+--------
 澄江街道 |      5
 澄江街道 |      4
(2 行記錄)
遇到這種情況就問你懵不懵逼??一樣的字符串長度一個5一個4啊!!日狗,混入不可見字符了。

可能這時已經有人想出了辦法,這種辦法如下:

update test set street='澄江街道' where street like '%澄江街道%';

postgres=# start transaction;
START TRANSACTION
postgres=# update test set street='澄江街道' where street like '%澄江街道%';
UPDATE 2
postgres=# select * from test where street='澄江街道';
  street  
----------
 澄江街道
 澄江街道
(2 行記錄)

postgres=# rollback;
ROLLBACK
哈哈,皆大歡喜,問題解決了。大笑

但是,如果這種數據很多呢???微笑

你是要一條一條的update咯??再見

不幸的是,本人遇到的這種數據就很多(因爲數據是從excel中導入進來的)。哭

然後我就找到了如下這種終極方案:

先確定這種不可見字符到底是哪個字符(一般情況一個csv文件的中如果有不可見字符應該也都是同一個不可見字符)

postgres=# select encode(street::bytea,'escape') from test;
                            encode                            
--------------------------------------------------------------
 \357\273\277\346\276\204\346\261\237\350\241\227\351\201\223
 \346\276\204\346\261\237\350\241\227\351\201\223
(2 行記錄)
那段\357\273\277多刺眼啊。。。。。。

如果你有仇人可以考慮有這種方法報復他了微笑

然後確定是否可以將該不可見字符過濾掉:

postgres=# select encode(street::bytea,'escape') from test where btrim(street::bytea,E'\\357\\273\\277'::bytea) = '澄江街道';
                            encode                            
--------------------------------------------------------------
 \357\273\277\346\276\204\346\261\237\350\241\227\351\201\223
 \346\276\204\346\261\237\350\241\227\351\201\223
(2 行記錄)
查到了兩條記錄,用這個btrim看來確實是把字符串裏的\357\273\277全部去除了。

接下來就要update表啦~

postgres=# update test set street=btrim(street::bytea,E'\\357\\273\\277'::bytea);
UPDATE 2
update成功。

查看數據:

postgres=# select * from test;
           street           
----------------------------
 \xe6be84e6b19fe8a197e98193
 \xe6be84e6b19fe8a197e98193
(2 行記錄)
哈哈,中文變成16進制的了。

不過不用捉急。

postgres=# select convert_from(street::bytea,'UTF8') from test;
 convert_from 
--------------
 澄江街道
 澄江街道
(2 行記錄)
再轉回UTF8編碼不就行了?(亂碼問題是所有問題中最簡單的問題,沒有之一)

按照這種方法update一下表:

postgres=# update test set street=convert_from(street::bytea,'UTF8');
UPDATE 2

postgres=# select * from test;
  street  
----------
 澄江街道
 澄江街道
(2 行記錄)

正常的數據又回來啦。

postgres=# select * from test where street='澄江街道';
  street  
----------
 澄江街道
 澄江街道
(2 行記錄)

postgres=# select street, length(street) from test;
  street  | length 
----------+--------
 澄江街道 |      4
 澄江街道 |      4
(2 行記錄)

不可見字符的問題也得到了解決。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章