【模型選擇與評估04】模型持久化

原創

达瓦里氏吨吨吨

2018-12-07 19:42

1.參考文獻
sklearn文獻

可以通過使用 Python 的內置持久化模型將訓練好的模型保存在 scikit 中，它名爲 pickle

>>> from sklearn import svm
>>> from sklearn import datasets
>>> clf = svm.SVC()
>>> iris = datasets.load_iris()
>>> X, y = iris.data, iris.target
>>> clf.fit(X, y)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)
    
使用方面直接import即可，它有dumps和loads兩種方法，分別進行模型的存儲和讀取
>>> import pickle
>>> s = pickle.dumps(clf)
>>> clf2 = pickle.loads(s)
>>> clf2.predict(X[0:1])
array([0])
>>> y[0]
0

要注意的地方：
爲了用以後版本的 scikit-learn 來重構類似的模型, 額外的元數據應該隨着 pickled model 一起被保存：
【1】訓練數據，例如：引用不可變的快照
【2】用於生成模型的 python 源代碼
【3】scikit-learn 的各版本以及各版本對應的依賴包
【4】在訓練數據的基礎上獲得的交叉驗證得分
這樣可以檢查交叉驗證得分是否與以前相同。
由於模型內部表示可能在兩種不同架構上不一樣，因此不支持在一個架構上轉儲模型並將其加載到另一個體系架構上。
（本質上強調完整保存模型的產生場景，這樣可以儘可能便於後期對於模型的檢查以及復原場景）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kaggle——ASHRAE 能源消耗預測，排名1%

這是在2019年11~12月期間，我參加的一個kaggle比賽——ASHRAE - Great Energy Predictor III 最終成績：排名前1%，22/3614。差一點點就金牌了，感覺前面的名次每前進一名都跟煉丹似的

2020-06-21 12:04:44

邏輯迴歸（LR）公式推導及代碼實現

文章目錄構造hypothesis構造損失函數通過“梯度下降法”求參數 θ\thetaθ 的更新式代碼實現References 邏輯迴歸是用來解決分類問題用的，與線性迴歸不同的是，邏輯迴歸輸出的不是具體的值，而是一個概率。除去了si

2020-06-21 12:04:43

[機器學習筆記] 機器學習常見算法總結（更新中）

機器學習常見算法總結監督學習 Supervised Learning 線性迴歸算法優點：建模速度快，存儲資源低；思想簡單，實現容易。建模迅速，對於小數據量、簡單的關係很有效；是許多強大的非線性模型的基礎；線性迴歸模型十分

2020-06-21 08:14:05

[機器學習筆記] （轉載學習）完整機器學習項目的工作流程

完整機器學習項目的工作流程博客原文：https://ask.julyedu.com/question/7013 1 抽象成數學問題明確問題是進行機器學習的第一步。機器學習的訓練過程通常都是一件非常耗時的事情，胡亂嘗試時間成本是非常高的

2020-06-21 07:35:48

[機器學習筆記] 常用的分類與預測算法

常用的分類與預測算法算法名稱算法描述迴歸分析迴歸分析是確定預測屬性（數值型）與其它變量間相互依賴的定量關係最常用的統計學方法。包括：線性迴歸、非線性迴歸、Logistic迴歸、嶺迴歸、主成分迴歸、偏最小二乘迴歸等模型。決策

2020-06-21 07:35:48

[機器學習筆記] 用Python分析 TED演講數據（更新中）

用Python分析 TED演講數據首先準備TED演講數據集，TED演講數據集和信息可以從下面的資源獲得： https://www.datafountain.cn/datasets/11 該數據集包含2個文件： ted_main.csv

2020-06-21 07:35:48

[數據分析學習筆記] 數據預處理

數據分析學習筆記 —— 數據預處理數據預處理一方面是要提高數據的質量，另一方面是要讓數據更好地適應特定的挖掘技術或工具。爲什麼需要進行數據預處理？包含在數據源中的大部分原始數據未被處理，它們是不完整的數據或者含有不符合數據分析要求的

2020-06-21 07:35:38

[機器學習] Python代碼來構建一顆決策樹（Decision Tree）的案例

Python代碼來構建一顆決策樹（Decision Tree）的案例用Python代碼來構建一顆決策樹（Decision）工具 Python+Jupyter Graphviz 2.38 （Graphviz是一個開源的圖形可視化軟件）

2020-06-21 07:35:38

[機器學習筆記] 用Python進行航空公司客戶價值分析筆記

用Python進行航空公司客戶價值分析（數據分析）學習資料：參考圖書：《Python數據分析與挖掘實戰》（機械工業出版社）第7章參考博文：https://blog.csdn.net/a857553315/article/detail

2020-06-21 07:35:38

[機器學習筆記] 用Python分析：紅葡萄酒質量分析（數據探索）

用Python分析：紅葡萄酒質量分析（數據探索）數據集：winemag-data_first150k.csv 先來導入數據 import numpy as np import pandas as pd import seaborn a

2020-06-21 07:35:38

[機器學習筆記] Python數據分析：用戶消費行爲（持續更新）

Python數據分析：用戶消費行爲（持續更新）紅酒品鑑和用戶消費行爲分析是我學習Python數據分析入門的兩個案例，記錄一下。網絡上關於這兩個案例的介紹非常多，但是我在學習過程中，發現有很多文章的邏輯不是很清晰，代碼也調試不同。所以

2020-06-21 07:35:38

[機器學習筆記] 機器學習知識要點彙總

機器學習知識要點彙總 1. 機器學習的常見分類和常用的算法有哪些？將機器學習分爲四種，分別是監督學習、無監督學習、半監督學習和增強學習。（1）監督學習(Supervised Learning)：是指每個進入算法的訓練數據樣本都

2020-06-21 07:35:38

2020數字中國天池——智慧海洋建設 Top1%

2020-05-19 06:50:06

Kaggle——能源消耗預測，排名1%

2020-05-06 17:07:51

數據挖掘（Data Mining）和數據分析（Data Analysis）的對比

2020-05-03 17:27:20

24小時熱門文章

最新文章

最新評論文章