1.文件處理
讀寫文件是最常見的IO操作。Python內置了讀寫文件的函數,用法和C是兼容的。
讀寫文件前,先必須瞭解一下,在磁盤上讀寫文件的功能都是由操作系統提供的,現代操作系統不允許普通的程序直接操作磁盤,所以,讀寫文件就是請求操作系統打開一個文件對象(通常稱爲文件描述符),然後,通過操作系統提供的接口從這個文件對象中讀取數據(讀文件),或者把數據寫入這個文件對象(寫文件)。
讀文件
要以讀文件的模式打開一個文件對象,使用Python內置的open()
函數,傳入文件名和標示符:
>>> f = open('/Users/michael/test.txt', 'r')
標示符’r’表示讀,這樣,我們就成功地打開了一個文件。
如果文件不存在,open()
函數就會拋出一個IOError
的錯誤,並且給出錯誤碼和詳細的信息告訴你文件不存在:
>>> f=open('/Users/michael/notfound.txt', 'r')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
FileNotFoundError: [Errno 2] No such file or directory: '/Users/michael/notfound.txt'
如果文件打開成功,接下來,調用read()
方法可以一次讀取文件的全部內容,Python把內容讀到內存,用一個str
對象表示:
>>> f.read()
'Hello, world!'
最後一步是調用close()
方法關閉文件。文件使用完畢後必須關閉,因爲文件對象會佔用操作系統的資源,並且操作系統同一時間能打開的文件數量也是有限的:
>>> f.close()
由於文件讀寫時都有可能產生IOError
,一旦出錯,後面的f.close()
就不會調用。所以,爲了保證無論是否出錯都能正確地關閉文件,我們可以使用try ... finally
來實現:
try:
f = open('/path/to/file', 'r')
print(f.read())
finally:
if f:
f.close()
但是每次都這麼寫實在太繁瑣,所以,Python引入了with
語句來自動幫我們調用close()
方法:
with open('/path/to/file', 'r') as f:
print(f.read())
這和前面的try ... finally
是一樣的,但是代碼更佳簡潔,並且不必調用f.close()
方法。
調用read()
會一次性讀取文件的全部內容,如果文件有10G,內存就爆了,所以,要保險起見,可以反覆調用read(size)
方法,每次最多讀取size個字節的內容。另外,調用readline()
可以每次讀取一行內容,調用readlines()
一次讀取所有內容並按行返回list
。因此,要根據需要決定怎麼調用。
如果文件很小,read()
一次性讀取最方便;如果不能確定文件大小,反覆調用read(size)
比較保險;如果是配置文件,調用readlines()
最方便:
for line in f.readlines():
print(line.strip()) # 把末尾的'\n'刪掉
file-like Object
像open()
函數返回的這種有個read()
方法的對象,在Python中統稱爲file-like Object。除了file外,還可以是內存的字節流,網絡流,自定義流等等。file-like Object不要求從特定類繼承,只要寫個read()
方法就行。
StringIO
就是在內存中創建的file-like Object,常用作臨時緩衝。
二進制文件
前面講的默認都是讀取文本文件,並且是UTF-8編碼的文本文件。要讀取二進制文件,比如圖片、視頻等等,用'rb'
模式打開文件即可:
>>> f = open('/Users/michael/test.jpg', 'rb')
>>> f.read()
b'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六進制表示的字節
字符編碼
要讀取非UTF-8編碼的文本文件,需要給open()
函數傳入encoding
參數,例如,讀取GBK編碼的文件:
>>> f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
>>> f.read()
'測試'
遇到有些編碼不規範的文件,你可能會遇到UnicodeDecodeError
,因爲在文本文件中可能夾雜了一些非法編碼的字符。遇到這種情況,open()
函數還接收一個errors
參數,表示如果遇到編碼錯誤後如何處理。最簡單的方式是直接忽略:
>>> f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')
寫文件
寫文件和讀文件是一樣的,唯一區別是調用open()
函數時,傳入標識符'w'
或者'wb'
表示寫文本文件或寫二進制文件:
>>> f = open('/Users/michael/test.txt', 'w')
>>> f.write('Hello, world!')
>>> f.close()
你可以反覆調用write()
來寫入文件,但是務必要調用f.close()
來關閉文件。當我們寫文件時,操作系統往往不會立刻把數據寫入磁盤,而是放到內存緩存起來,空閒的時候再慢慢寫入。只有調用close()
方法時,操作系統才保證把沒有寫入的數據全部寫入磁盤。忘記調用close()
的後果是數據可能只寫了一部分到磁盤,剩下的丟失了。所以,還是用with
語句來得保險:
with open('/Users/michael/test.txt', 'w') as f:
f.write('Hello, world!')
要寫入特定編碼的文本文件,請給open()
函數傳入encoding
參數,將字符串自動轉換成指定編碼。
細心的人會發現,以'w'
模式寫入文件時,如果文件已存在,會直接覆蓋(相當於刪掉後新寫入一個文件)。如果我們希望追加到文件末尾怎麼辦?可以傳入'a'
以追加(append)模式寫入。
2.文件處理的相關方法
file 對象使用 open 函數來創建,下表列出了 file 對象常用的函數:
序號 | 方法及描述 |
---|---|
1 | file.close()關閉文件。關閉後文件不能再進行讀寫操作。 |
2 | file.flush()刷新文件內部緩衝,直接把內部緩衝區的數據立刻寫入文件, 而不是被動的等待輸出緩衝區寫入。 |
3 | file.fileno()返回一個整型的文件描述符(file descriptor FD 整型), 可以用在如os模塊的read方法等一些底層操作上。 |
4 | file.isatty()如果文件連接到一個終端設備返回 True,否則返回 False。 |
5 | file.next()返回文件下一行。 |
6 | [file.read(size])從文件讀取指定的字節數,如果未給定或爲負則讀取所有。 |
7 | [file.readline(size])讀取整行,包括 “\n” 字符。 |
8 | [file.readlines(sizehint])讀取所有行並返回列表,若給定sizeint>0,返回總和大約爲sizeint字節的行, 實際讀取值可能比sizeint較大, 因爲需要填充緩衝區。 |
9 | [file.seek(offset, whence])設置文件當前位置 |
10 | file.tell()返回文件當前位置。 |
11 | [file.truncate(size])截取文件,截取的字節通過size指定,默認爲當前文件位置。 |
12 | file.write(str)將字符串寫入文件,返回的是寫入的字符。 |
13 | file.writelines(sequence)向文件寫入一個序列字符串列表,如果需要換行則要自己加入每行的換行符。 |
3.文件的存儲模塊
- pickle模塊
在程序運行的過程中,所有的變量都是在內存中,比如,定義一個dict:
d = dict(name='Bob', age=20, score=88)
可以隨時修改變量,比如把name
改成'Bill'
,但是一旦程序結束,變量所佔用的內存就被操作系統全部回收。如果沒有把修改後的'Bill'
存儲到磁盤上,下次重新運行程序,變量又被初始化爲'Bob'
。
我們把變量從內存中變成可存儲或傳輸的過程稱之爲序列化,在Python中叫pickling,在其他語言中也被稱之爲serialization,marshalling,flattening等等,都是一個意思。
序列化之後,就可以把序列化後的內容寫入磁盤,或者通過網絡傳輸到別的機器上。
反過來,把變量內容從序列化的對象重新讀到內存裏稱之爲反序列化,即unpickling。
Python提供了pickle
模塊來實現序列化。
首先,我們嘗試把一個對象序列化並寫入文件:
>>> import pickle
>>> d = dict(name='Bob', age=20, score=88)
>>> pickle.dumps(d)
b'\x80\x03}q\x00(X\x03\x00\x00\x00ageq\x01K\x14X\x05\x00\x00\x00scoreq\x02KXX\x04\x00\x00\x00nameq\x03X\x03\x00\x00\x00Bobq\x04u.'
pickle.dumps()
方法把任意對象序列化成一個bytes
,然後,就可以把這個bytes
寫入文件。或者用另一個方法pickle.dump()
直接把對象序列化後寫入一個file-like Object:
>>> f = open('dump.txt', 'wb')
>>> pickle.dump(d, f)
>>> f.close()
看看寫入的dump.txt
文件,一堆亂七八糟的內容,這些都是Python保存的對象內部信息。
當我們要把對象從磁盤讀到內存時,可以先把內容讀到一個bytes
,然後用pickle.loads()
方法反序列化出對象,也可以直接用pickle.load()
方法從一個file-like Object
中直接反序列化出對象。我們打開另一個Python命令行來反序列化剛纔保存的對象:
>>> f = open('dump.txt', 'rb')
>>> d = pickle.load(f)
>>> f.close()
>>> d
{'age': 20, 'score': 88, 'name': 'Bob'}
變量的內容又回來了!
當然,這個變量和原來的變量是完全不相干的對象,它們只是內容相同而已。
Pickle的問題和所有其他編程語言特有的序列化問題一樣,就是它只能用於Python,並且可能不同版本的Python彼此都不兼容,因此,只能用Pickle保存那些不重要的數據,不能成功地反序列化也沒關係。
- marshal模塊
Python的marshal模塊,顧名思義也是負責在Python數值與二進制字節對象之間進行轉換的。但是,marshal模塊僅供Python解析器內部用作對象的序列化,不推薦開發人員使用該模塊處理Python對象的序列化和反序列化。
marshal模塊不是通用的序列化/反序列化模塊,而是以讀寫.pyc文件中的Python代碼爲目的設計的。marshal模塊提供的函數可以讀寫二進制對象爲Python數值。這裏的二進制對象是Python字節定義的獨特二進制格式,與所在機器的體系結構無關。
- load(file),從文件讀取Python數值並返回該值loads(bytes),將讀入的字節對象轉換爲Python數值
- dump(value, file[, version]),將Python數值寫入到文件
- dumps(value[, version]),將讀入的Python數值轉換爲一個字節對象
- version,當前marshal模塊使用的二進制格式的版本
- 事實上,要序列化或反序列化Python對象,建議使用pickle模塊。如在RPC調用中對Python對象進行遠程傳輸,則使用pickle模塊。
如果要對Python對象進行持久化,則使用shelve模塊。
4.JSON
JSON
如果我們要在不同的編程語言之間傳遞對象,就必須把對象序列化爲標準格式,比如XML,但更好的方法是序列化爲JSON,因爲JSON表示出來就是一個字符串,可以被所有語言讀取,也可以方便地存儲到磁盤或者通過網絡傳輸。JSON不僅是標準格式,並且比XML更快,而且可以直接在Web頁面中讀取,非常方便。
JSON表示的對象就是標準的JavaScript語言的對象,JSON和Python內置的數據類型對應如下:
JSON類型 | Python類型 |
---|---|
{} | dict |
[] | list |
“string” | str |
1234.56 | int或float |
true/false | True/False |
null | None |
Python內置的json
模塊提供了非常完善的Python對象到JSON格式的轉換。我們先看看如何把Python對象變成一個JSON:
>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'
dumps()
方法返回一個str
,內容就是標準的JSON。類似的,dump()
方法可以直接把JSON寫入一個file-like Object
。
要把JSON反序列化爲Python對象,用loads()
或者對應的load()
方法,前者把JSON的字符串反序列化,後者從file-like Object
中讀取字符串並反序列化:
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{'age': 20, 'score': 88, 'name': 'Bob'}
由於JSON標準規定JSON編碼是UTF-8,所以我們總是能正確地在Python的str
與JSON的字符串之間轉換。
JSON進階
Python的dict
對象可以直接序列化爲JSON的{}
,不過,很多時候,我們更喜歡用class
表示對象,比如定義Student
類,然後序列化:
import json
class Student(object):
def __init__(self, name, age, score):
self.name = name
self.age = age
self.score = score
s = Student('Bob', 20, 88)
print(json.dumps(s))
運行代碼,毫不留情地得到一個TypeError
:
Traceback (most recent call last):
...
TypeError: <__main__.Student object at 0x10603cc50> is not JSON serializable
錯誤的原因是Student
對象不是一個可序列化爲JSON的對象。
如果連class
的實例對象都無法序列化爲JSON,這肯定不合理!
別急,仔細看看dumps()
方法的參數列表,可以發現,除了第一個必須的obj
參數外,dumps()
方法還提供了一大堆的可選參數:
https://docs.python.org/3/library/json.html#json.dumps
這些可選參數就是讓我們來定製JSON序列化。前面的代碼之所以無法把Student
類實例序列化爲JSON,是因爲默認情況下,dumps()
方法不知道如何將Student
實例變爲一個JSON的{}
對象。
可選參數default
就是把任意一個對象變成一個可序列爲JSON的對象,我們只需要爲Student
專門寫一個轉換函數,再把函數傳進去即可:
def student2dict(std):
return {
'name': std.name,
'age': std.age,
'score': std.score
}
這樣,Student
實例首先被student2dict()
函數轉換成dict
,然後再被順利序列化爲JSON:
>>> print(json.dumps(s, default=student2dict))
{"age": 20, "name": "Bob", "score": 88}
不過,下次如果遇到一個Teacher
類的實例,照樣無法序列化爲JSON。我們可以偷個懶,把任意class
的實例變爲dict
:
print(json.dumps(s, default=lambda obj: obj.__dict__))
因爲通常class
的實例都有一個__dict__
屬性,它就是一個dict
,用來存儲實例變量。也有少數例外,比如定義了__slots__
的class。
同樣的道理,如果我們要把JSON反序列化爲一個Student
對象實例,loads()
方法首先轉換出一個dict
對象,然後,我們傳入的object_hook
函數負責把dict
轉換爲Student
實例:
def dict2student(d):
return Student(d['name'], d['age'], d['score'])
運行結果如下:
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> print(json.loads(json_str, object_hook=dict2student))
<__main__.Student object at 0x10cd3c190>
打印出的是反序列化的Student
實例對象。