python中的代碼編碼格式轉換問題

原創

2020-03-17 02:23

剛來這個公司，熟悉了環境，老大就開始讓我做一個遷移、修改代碼的工作，我想說的是，這種工作真沒勁~~，看別人的代碼、改別人的代碼、這裏改個變量、那裏改個文件名······，都是些沒技術含量、很繁瑣的事情，不過通過遷移代碼順便熟悉下環境也好。扯了這麼多，說說今天的主題吧——代碼編碼格式改變，由於某些原因，需要將代碼從A機房遷移到B機房，這兩個之間不能互相訪問，但是歷史原因導致A機房的代碼全是utf8編碼的，B機房要求是GBK編碼，看看這個怎麼解決。

編碼問題

先說說爲什麼會有編碼問題，就拿上面那個例子來說，B機房這邊數據庫全是GBK編碼的，因此從數據庫中取出來的數據都是GBK的，從數據庫中取出來的數據是GBK編碼的，要在展示的時候不亂碼，在不對數據庫取出的數據轉換的情況下，就需要發送header的時候設置編碼爲GBK，輸出的文件（html、tpl等）都必須是GBK的，看看下面這個圖會更清楚點：

DB（GBK） => php等（編碼格式不限但如果代碼文件中有漢字，文件就要是gbk編碼或者在漢字輸出的時候轉化爲gbk） => header(GBK) => html、tpl（GBK）

或者還有一種方式只在出庫的時候在代碼中將utf8轉化爲gbk，總的來說utf8還是更流行點，問題更少點

DB(GBK) => php等(utf8，並將從數據庫取出的數據轉化爲utf8) => header(utf8) => html、tpl(utf8)

只要按照上面這兩種規範編碼格式，就不會出現亂碼情況，起碼我測試的第一種方式是沒問題的，所以我猜第二種也ok，好了，現在就來寫一個轉換文件編碼格式的小腳本：

#!/usr/bin/python
# -*- coding: utf-8 -*-
#Filename:changeEncode.py
import os
import sys
 
def ChangeEncode(file,fromEncode,toEncode):
  try:
    f=open(file)
    s=f.read()
    f.close()
    u=s.decode(fromEncode)
    s=u.encode(toEncode)
    f=open(file,"w");
    f.write(s)
    return 0;
  except:
    return -1;
 
def Do(dirname,fromEncode,toEncode):
  for root,dirs,files in os.walk(dirname):
    for _file in files:
      _file=os.path.join(root,_file)
      if(ChangeEncode(_file,fromEncode,toEncode)!=0):
        print "[轉換失敗:]"+_file
      else:
        print "[成功：]"+_file
 
def CheckParam(dirname,fromEncode,toEncode):
  encode=["UTF-8","GBK","gbk","utf-8"]
  if(not fromEncode in encode or not toEncode in encode):
    return 2
  if(fromEncode==toEncode):
    return 3
  if(not os.path.isdir(dirname)):
    return 1
  return 0
 
if __name__=="__main__":
  error={1:"第一個參數不是一個有效的文件夾",3:"源編碼和目標編碼相同",2:"您要轉化的編碼不再範圍之內：UTF-8，GBK"}
  dirname=sys.argv[1]
  fromEncode=sys.argv[2]
  toEncode=sys.argv[3]
  ret=CheckParam(dirname,fromEncode,toEncode)
  if(ret!=0):
    print error[ret]
  else:
    Do(dirname,fromEncode,toEncode)

腳本很簡單，使用也很簡單

./changeEncode.py target_dir fromEncode toEncode
　　這裏要注意下，幾種常見編碼的關係：

us-ascii編碼是utf-8編碼的一個子集，這個是從stackoverflow上得到的，原文如下ASCII is a subset of UTF-8, so all ASCII files are already UTF-8 encoded，

我試了下確實是的，在不加漢字的時候顯示編碼爲us-ascii，加了漢字之後，變爲utf-8。

還有就是ASNI編碼格式，這代表是本地編碼格式，比如說在簡體中文操作系統下，ASNI編碼就代表GBK編碼，這點還需要注意

還有一點就是一個在linux下查看文件編碼格式的命令是：

file -i *

可以看到文件的編碼格式。

當然了，上面的可能有些文件中有特殊字符，處理的時候會失敗，但一般程序文件是沒有問題的。
　　寫到這裏，給大家推薦一個資源很全的python學習聚集地，點擊進入，這裏有資深程序員分享以前學習心得，學習筆記，還有一線企業的工作經驗，且給大家精心整理一份python零基礎到項目實戰的資料，每天給大家講解python最新的技術，前景，學習需要留言的小細節

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python中的代碼編碼格式轉換問題

985 碩士程序員，空窗 4 個月沒有 Offer！

【入門教程】5分鐘教你快速學會集成Java springboot ~

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

python基礎教程：python如何通過twisted搭建socket服務

Python手繪可視化工具cutecharts使用實例

python基礎教程：使用PyCharm創建Django項目及基本配置詳解

python基礎教程：pandas DataFrame 行列索引及值的獲取的方法

python基礎教程：python檢測文件夾變化,並拷貝有更新的文件到對應目錄的方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結