PyTorch學習筆記之數據加載和預處理

原創

2020-07-07 23:19

PyTorch 通過 torch.utils.data 對一般常用的數據加載進行了封裝，可以很容易地實現多線程數據預讀和批量加載。並且 torchvision 已經預先實現了常用圖像數據集，包括前面使用過的 CIFAR-10, ImageNet, COCO, MNIST, LSUN 等數據集，可通過 torchvision.datasets 方便的調用。

Dataset

Dataset 是一個抽象類，爲了能夠方便的讀取，需要將使用的數據包裝爲 Dataset 類。自定義的 Dataset 需要繼承它並且實現兩個成員方法：

1、__getitem__() 該方法定義用索引 ( 0 到 len(self)) 獲取一條數據或一個樣本

2、__len__() 該方法返回數據集的總長度

下面我們使用 kaggle 上的一個競賽 bluebook for bulldozers 自定義一個數據集，爲了方便介紹，我們使用裏面的數據字典來做說明（因爲條數少）

# 至此，我們的數據集已經定義完成了，我們可以實例話一個對象訪問它。

# 我們可以直接使用如下命令查看數據集數據。

自定義的數據集已經創建好了，下面我們使用官方提供的數據載入器，讀取數據。

Dataloader

Dataloader 爲我們提供了對 Dataset 的讀取操作，常用參數有：batch_size（每個 bath 的大小）、 shuffle（是否進行 shuffle 操作）、 num_workers（加載數據的時候使用幾個子進程）。下面做一個簡單的操作

DataLoader 返回的是一個可迭代對象，我們可以使用迭代器分次獲取數據。

# 常見的用法是使用 for 循環對其進行遍歷

我們已經可以通過 dataset 定義數據集，並使用 Dataloader 載入和遍歷數據集，除了這些以外， PyTorch 還提供能 torchvision 的計算機視覺擴展包。

torchvision 包

torchvision 是 PyTorch 中專門用來處理圖像的庫， PyTorch 官網的安裝教程中最後的 pip install torchvision 就是安裝這個包。

Torchvision.datasets

Torchvision.datasets 可以理解爲 PyTorch 團隊自定義的 dataset, 這些 dataset 幫我們提前處理好了很多的圖片數據集，我們拿來就可以直接使用：

我們可以直接使用，示例如下：

torchvision.models

Torchvision 不僅提供了常用圖片數據集，還提供了訓練好的模型，可以加載之後，直接使用，或者在進行遷移學習 torchvision.models 模塊的子模塊中包含以下子模型結構。

torchvision.transforms

transforms 模塊提供了一般的圖像轉換操作類，用作數據處理和數據增強

(0.485,0.456,0.406), (0.2023,0.1994,0.2010) 這幾個數字是根據 ImageNet 訓練的歸一化參數均值和方差。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PyTorch 學習資料

1、Pytorch簡介：（1）、PyTorch 算是相當簡潔優雅且高效快速的框架；（2）、PyTorch 算是相當簡潔優雅且高效快速的框架設計追求最少的封裝，儘量避免重複造輪子算是所有的框架中面向對象設計的最優雅的一個，設計最符

2020-07-07 23:19:57

關於 Jupyter Notebook 中 No module named 'torch' 的解決辦法

千辛萬苦安裝好了 PyTorch ,在 Anaconda3 的 Anaconda prompt 中測試也是 Ok（如下圖1）的，欣喜若狂，準備大幹一場，滿懷期待打開 Jupyter Notebook 測試一下，卻發生下面的

2020-07-07 23:19:57

TensorBoard可視化之不顯示數據問題（ No Image data was found）

Tensorboard 雖然是 tensorflow 內置的可視化工具，但是他們跑在不同的進程中，所以可以將 tensorboard 應用到 Pytorch 中，可以幫助我們理解整個神經網絡的學習過程、數據的分佈、性能瓶頸等等。

2020-07-07 23:19:57

Pytorch學習筆記之Pytroch 基礎

1、張量（Tensor) 張量的英文是 Tensor, 它是 PyTorch 裏基礎的運算單位，與 Numpy 的 ndarray 相同表示的是一個多維矩陣。與 ndarray 的最大區別就在於，PyTorch 的 Tensor 可以

2020-07-07 23:19:57

Pytorch實戰-logistic 迴歸二元分類代碼詳細註釋

1、logistic 迴歸介紹 logistic 迴歸是一種廣義線性迴歸 (generalized linear model)，與多重線性迴歸分析有很多相同之處。它們的模型形式基本上相同，都具有 wx+b，其中 w 和 b 是待求參

2020-07-07 23:19:57

PyTorch學習筆記之神經網絡包 nn 和優化器 optim

2020-02-25 00:24:32

Kaggle 數據集下載步驟

2020-02-25 00:24:32

PyTorch 學習資料

1、Pytorch簡介：（1）、PyTorch 算是相當簡潔優雅且高效快速的框架；（2）、PyTorch 算是相當簡潔優雅且高效快速的框架設計追求最少的封裝，儘量避免重複造輪子算是所有的框架中面向對象設計的最優雅的一個，設計最符

2020-07-07 23:19:57

關於 Jupyter Notebook 中 No module named 'torch' 的解決辦法

千辛萬苦安裝好了 PyTorch ,在 Anaconda3 的 Anaconda prompt 中測試也是 Ok（如下圖1）的，欣喜若狂，準備大幹一場，滿懷期待打開 Jupyter Notebook 測試一下，卻發生下面的

2020-07-07 23:19:57

TensorBoard可視化之不顯示數據問題（ No Image data was found）

Tensorboard 雖然是 tensorflow 內置的可視化工具，但是他們跑在不同的進程中，所以可以將 tensorboard 應用到 Pytorch 中，可以幫助我們理解整個神經網絡的學習過程、數據的分佈、性能瓶頸等等。

2020-07-07 23:19:57

Pytorch學習筆記之Pytroch 基礎

1、張量（Tensor) 張量的英文是 Tensor, 它是 PyTorch 裏基礎的運算單位，與 Numpy 的 ndarray 相同表示的是一個多維矩陣。與 ndarray 的最大區別就在於，PyTorch 的 Tensor 可以

2020-07-07 23:19:57

Pytorch實戰-logistic 迴歸二元分類代碼詳細註釋

1、logistic 迴歸介紹 logistic 迴歸是一種廣義線性迴歸 (generalized linear model)，與多重線性迴歸分析有很多相同之處。它們的模型形式基本上相同，都具有 wx+b，其中 w 和 b 是待求參

2020-07-07 23:19:57

利用pytorch構建簡單神經網絡

省略了數據集的處理過程 #轉爲tensor x = torch.tensor(input_features, dtype = float) y = torch.tensor(labels, dtype = float) # 權

2020-07-06 10:42:11

利用pytorch進行線性迴歸

import torch import matplotlib.pyplot as plt torch.manual_seed(10) lr = 0.1 #learning rate #train data x = torch

2020-07-06 10:42:11

pytorch 實現優化函數

2020-04-22 04:31:05

24小時熱門文章

最新文章

最新評論文章