python2在pycharm中的中文亂碼問題處理方式

首先:在輸入(抓取某些utf-8/gbk的網頁)、輸出(輸出到網頁、終端)的時候,要記住python內部是用Unicode存儲的,所有輸入要先decode,變成unicode,輸出時要encode變成想要的編碼(MacOS X/Linux下輸出爲utf-8,Windows下輸出爲gbk,但如果是在pycharm自己的控制檯下的話,windows下輸出爲utf-8也可以正常顯示)。

Python 2 中文編碼統一解決方案:

  1. 源碼文件用coding: utf-8指定編碼並把文件保存爲utf-8格式
  2. 爲了作爲__main__模塊執行時不出不必要的錯誤,統一使用\n換行
  3. 如果需要在源碼內嵌入漢字等非ascii字符,建議使用u前綴作爲unicode字符串,這樣在print時可以可以不做編碼轉換,
  4. 否則如果控制檯編碼與源文件編碼不一致就必須顯式轉換,通過locale.getdefaultlocale()可以獲取系統語言和編碼
  5. 涉及文件路徑的最好轉換爲sys.getfilesystemencoding()編碼
  6. unicode字符串在寫入文件時必須轉換爲某種字節編碼
  7. json默認支持utf-8編碼
  8. 儘量用utf-8和unicode,除了前面說的文件路徑和寫入文件等少數情況
發佈了50 篇原創文章 · 獲贊 7 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章