PyTorch学习笔记之数据加载和预处理

原創

2020-07-07 23:19

PyTorch 通过 torch.utils.data 对一般常用的数据加载进行了封装，可以很容易地实现多线程数据预读和批量加载。并且 torchvision 已经预先实现了常用图像数据集，包括前面使用过的 CIFAR-10, ImageNet, COCO, MNIST, LSUN 等数据集，可通过 torchvision.datasets 方便的调用。

Dataset

Dataset 是一个抽象类，为了能够方便的读取，需要将使用的数据包装为 Dataset 类。自定义的 Dataset 需要继承它并且实现两个成员方法：

1、__getitem__() 该方法定义用索引 ( 0 到 len(self)) 获取一条数据或一个样本

2、__len__() 该方法返回数据集的总长度

下面我们使用 kaggle 上的一个竞赛 bluebook for bulldozers 自定义一个数据集，为了方便介绍，我们使用里面的数据字典来做说明（因为条数少）

# 至此，我们的数据集已经定义完成了，我们可以实例话一个对象访问它。

# 我们可以直接使用如下命令查看数据集数据。

自定义的数据集已经创建好了，下面我们使用官方提供的数据载入器，读取数据。

Dataloader

Dataloader 为我们提供了对 Dataset 的读取操作，常用参数有：batch_size（每个 bath 的大小）、 shuffle（是否进行 shuffle 操作）、 num_workers（加载数据的时候使用几个子进程）。下面做一个简单的操作

DataLoader 返回的是一个可迭代对象，我们可以使用迭代器分次获取数据。

# 常见的用法是使用 for 循环对其进行遍历

我们已经可以通过 dataset 定义数据集，并使用 Dataloader 载入和遍历数据集，除了这些以外， PyTorch 还提供能 torchvision 的计算机视觉扩展包。

torchvision 包

torchvision 是 PyTorch 中专门用来处理图像的库， PyTorch 官网的安装教程中最后的 pip install torchvision 就是安装这个包。

Torchvision.datasets

Torchvision.datasets 可以理解为 PyTorch 团队自定义的 dataset, 这些 dataset 帮我们提前处理好了很多的图片数据集，我们拿来就可以直接使用：

我们可以直接使用，示例如下：

torchvision.models

Torchvision 不仅提供了常用图片数据集，还提供了训练好的模型，可以加载之后，直接使用，或者在进行迁移学习 torchvision.models 模块的子模块中包含以下子模型结构。

torchvision.transforms

transforms 模块提供了一般的图像转换操作类，用作数据处理和数据增强

(0.485,0.456,0.406), (0.2023,0.1994,0.2010) 这几个数字是根据 ImageNet 训练的归一化参数均值和方差。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PyTorch 学习资料

1、Pytorch簡介：（1）、PyTorch 算是相當簡潔優雅且高效快速的框架；（2）、PyTorch 算是相當簡潔優雅且高效快速的框架設計追求最少的封裝，儘量避免重複造輪子算是所有的框架中面向對象設計的最優雅的一個，設計最符

2020-07-07 23:19:57

关于 Jupyter Notebook 中 No module named 'torch' 的解决办法

千辛萬苦安裝好了 PyTorch ,在 Anaconda3 的 Anaconda prompt 中測試也是 Ok（如下圖1）的，欣喜若狂，準備大幹一場，滿懷期待打開 Jupyter Notebook 測試一下，卻發生下面的

2020-07-07 23:19:57

TensorBoard可视化之不显示数据问题（ No Image data was found）

Tensorboard 雖然是 tensorflow 內置的可視化工具，但是他們跑在不同的進程中，所以可以將 tensorboard 應用到 Pytorch 中，可以幫助我們理解整個神經網絡的學習過程、數據的分佈、性能瓶頸等等。

2020-07-07 23:19:57

Pytorch学习笔记之Pytroch 基础

1、張量（Tensor) 張量的英文是 Tensor, 它是 PyTorch 裏基礎的運算單位，與 Numpy 的 ndarray 相同表示的是一個多維矩陣。與 ndarray 的最大區別就在於，PyTorch 的 Tensor 可以

2020-07-07 23:19:57

Pytorch实战-logistic 回归二元分类代码详细注释

1、logistic 迴歸介紹 logistic 迴歸是一種廣義線性迴歸 (generalized linear model)，與多重線性迴歸分析有很多相同之處。它們的模型形式基本上相同，都具有 wx+b，其中 w 和 b 是待求參

2020-07-07 23:19:57

PyTorch学习笔记之神经网络包 nn 和优化器 optim

2020-02-25 00:24:32

Kaggle 数据集下载步骤

2020-02-25 00:24:32

PyTorch 学习资料

1、Pytorch簡介：（1）、PyTorch 算是相當簡潔優雅且高效快速的框架；（2）、PyTorch 算是相當簡潔優雅且高效快速的框架設計追求最少的封裝，儘量避免重複造輪子算是所有的框架中面向對象設計的最優雅的一個，設計最符

2020-07-07 23:19:57

关于 Jupyter Notebook 中 No module named 'torch' 的解决办法

千辛萬苦安裝好了 PyTorch ,在 Anaconda3 的 Anaconda prompt 中測試也是 Ok（如下圖1）的，欣喜若狂，準備大幹一場，滿懷期待打開 Jupyter Notebook 測試一下，卻發生下面的

2020-07-07 23:19:57

TensorBoard可视化之不显示数据问题（ No Image data was found）

Tensorboard 雖然是 tensorflow 內置的可視化工具，但是他們跑在不同的進程中，所以可以將 tensorboard 應用到 Pytorch 中，可以幫助我們理解整個神經網絡的學習過程、數據的分佈、性能瓶頸等等。

2020-07-07 23:19:57

Pytorch学习笔记之Pytroch 基础

1、張量（Tensor) 張量的英文是 Tensor, 它是 PyTorch 裏基礎的運算單位，與 Numpy 的 ndarray 相同表示的是一個多維矩陣。與 ndarray 的最大區別就在於，PyTorch 的 Tensor 可以

2020-07-07 23:19:57

Pytorch实战-logistic 回归二元分类代码详细注释

1、logistic 迴歸介紹 logistic 迴歸是一種廣義線性迴歸 (generalized linear model)，與多重線性迴歸分析有很多相同之處。它們的模型形式基本上相同，都具有 wx+b，其中 w 和 b 是待求參

2020-07-07 23:19:57

利用pytorch构建简单神经网络

省略了數據集的處理過程 #轉爲tensor x = torch.tensor(input_features, dtype = float) y = torch.tensor(labels, dtype = float) # 權

2020-07-06 10:42:11

利用pytorch进行线性回归

import torch import matplotlib.pyplot as plt torch.manual_seed(10) lr = 0.1 #learning rate #train data x = torch

2020-07-06 10:42:11

pytorch 实现优化函数

2020-04-22 04:31:05

24小時熱門文章

最新文章

最新評論文章