Python庫：序列化和反序列化模塊pickle介紹

原創

2020-05-30 17:37

1 前言

在“通過簡單示例來理解什麼是機器學習”這篇文章裏提到了pickle庫的使用，本文來做進一步的闡述。

通過簡單示例來理解什麼是機器學習

pickle是python語言的一個標準模塊，安裝python後已包含pickle庫，不需要單獨再安裝。
pickle模塊實現了基本的數據序列化和反序列化。通過pickle模塊的序列化操作我們能夠將程序中運行的對象信息保存到文件中去，永久存儲；通過pickle模塊的反序列化操作，我們能夠從文件中創建上一次程序保存的對象。
在官方的介紹中，序列化操作的英文描述有好幾個單詞，如”serializing”, “pickling”, “serialization”, “marshalling” 或者”flattening”等，它們都代表的是序列化的意思。相應的，反序列化操作的英文單詞也有好多個，如”de-serializing”, “unpickling”, “deserailization”等。爲了避免混淆，一般用”pickling”/“unpickling”, 或者”serialization”/“deserailization”。
pickle模塊是以二進制的形式序列化後保存到文件中（保存文件的後綴爲”.pkl”），不能直接打開進行預覽。而python的另一個序列化標準模塊json，則是human-readable的，可以直接打開查看（例如在notepad++中查看）。

pickle模塊有兩類主要的接口，即序列化和反序列化。
其中序列化操作包括：

pickle.dump()
Pickler(file, protocol).dump(obj)
反序列化操作包括：
pickle.load()
Unpickler(file).load()

2 序列化操作

2.1 序列化方法pickle.dump()

序列化的方法爲 pickle.dump()，該方法的相關參數如下：
pickle.dump(obj, file, protocol=None,*,fix_imports=True)
該方法實現的是將序列化後的對象obj以二進制形式寫入文件file中，進行保存。它的功能等同於 Pickler(file, protocol).dump(obj)。
關於參數file，有一點需要注意，必須是以二進制的形式進行操作（寫入）。
參考前文的案例如下：

import pickle
with open('svm_model_iris.pkl', 'wb') as f:
    pickle.dump(svm_classifier, f)

file爲’svm_model_iris.pkl’，並且以二進制的形式（’wb’）寫入。

關於參數protocol，一共有5中不同的類型，即（0,1,2,3,4）。（0,1,2）對應的是python早期的版本，（3,4）則是在python3之後的版本。
此外，參數可選 pickle.HIGHEST_PROTOCOL和pickle.DEFAULT_PROTOCOL。當前，python3.5版本中，pickle.HIGHEST_PROTOCOL的值爲4，pickle.DEFAULT_PROTOCOL的值爲3。當protocol參數爲負數時，表示選擇的參數是pickle.HIGHEST_PROTOCOL。
關於參數protocol，官方的詳細介紹如下：

2.2 序列化方法pickle.dumps()

pickle.dumps()方法的參數如下：
pickle.dumps(obj, protocol=None,*,fix_imports=True)
pickle.dumps()方法跟pickle.dump()方法的區別在於，pickle.dumps()方法不需要寫入文件中，它是直接返回一個序列化的bytes對象。

2.3 序列化方法Pickler(file, protocol).dump(obj)

pickle模塊提供了序列化的面向對象的類方法，即 class pickle.Pickler(file, protocol=None,*,fix_imports=True),Pickler類有dump()方法。
Pickler(file, protocol).dump(obj) 實現的功能跟 pickle.dump() 是一樣的。
關於Pickler類的其他method，請參考官方API。

插播一條硬廣：技術文章轉發太多，本文來自微信公衆號：“Python數據之道”（ID：PyDataRoad）。

3 反序列化操作

3.1 反序列化方法pickle.load()

序列化的方法爲 pickle.load()，該方法的相關參數如下：
pickle.load(file, *,fix_imports=True, encoding=”ASCII”. errors=”strict”)
該方法實現的是將序列化的對象從文件file中讀取出來。它的功能等同於 Unpickler(file).load()。
關於參數file，有一點需要注意，必須是以二進制的形式進行操作（讀取）。
參考前文的案例如下：

import pickle
with open('svm_model_iris.pkl', 'rb') as f:
    model = pickle.load(f)

file爲’svm_model_iris.pkl’，並且以二進制的形式（’rb’）讀取。

讀取的時候，參數protocol是自動選擇的，load()方法中沒有這個參數。

3.2 反序列化方法pickle.loads()

pickle.loads()方法的參數如下：
pickle.loads(bytes_object, *,fix_imports=True, encoding=”ASCII”. errors=”strict”)
pickle.loads()方法跟pickle.load()方法的區別在於，pickle.loads()方法是直接從bytes對象中讀取序列化的信息，而非從文件中讀取。

3.3 反序列化方法Unpickler(file).load()

pickle模塊提供了反序列化的面向對象的類方法，即 class pickle.Unpickler(file, *,fix_imports=True, encoding="ASCII". errors="strict"),Pickler類有load()方法。
Unpickler(file).load() 實現的功能跟 pickle.load() 是一樣的。
關於Unpickler類的其他method，請參考官方API。

4 那些類型可以進行序列化和反序列化操作

官方文檔是這麼介紹的，這裏我就不進一步描述了。

寫在後面

pickle模塊還是比較實用的，當然，關於pickle模塊，其實還有許多的信息可以去了解，想了解更多信息的童鞋，建議可以閱讀下python官方的API文檔（library文件）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python庫：序列化和反序列化模塊pickle介紹

1 前言

2 序列化操作

2.1 序列化方法pickle.dump()

2.2 序列化方法pickle.dumps()

2.3 序列化方法Pickler(file, protocol).dump(obj)

3 反序列化操作

3.1 反序列化方法pickle.load()

3.2 反序列化方法pickle.loads()

3.3 反序列化方法Unpickler(file).load()

4 那些類型可以進行序列化和反序列化操作

寫在後面

EXCEL中下拉菜單中添加新選項或者刪除選項

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

Git使用經驗總結5-修改提交信息

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Git使用經驗總結4-撤回上一次本地提交

Java中止線程的方式

壓榨數據庫的真實處理速度

國內SaaS遇冷？未來企業服務賽道是否還有機會？

通過簡單示例來理解什麼是機器學習

Python: Pandas運算的效率探討以及如何選擇高效的運算方式

Python庫：序列化和反序列化模塊pickle介紹

Python項目實戰：福布斯系列之數據採集

乾貨: 可視化項目實戰經驗分享，輕鬆玩轉 Bokeh （建議收藏）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結