# PyTorch提供了許多工具來簡化和希望數據加載,使代碼更具可讀性。
from __future__ import print_function, division
import os
import torch
import pandas as pd #用於更容易地進行csv解析
from skimage import io, transform #用於圖像的IO和變換
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms, utils
# 忽略警告
import warnings
warnings.filterwarnings("ignore")
plt.ion() # interactive mode
# 數據集是按如下規則打包成的csv文件
# image_name,part_0_x,part_0_y,part_1_x,part_1_y,part_2_x, ... ,part_67_x,part_67_y
# 0805personali01.jpg,27,83,27,98, ... 84,134
# 1084239450_e76e00b7e7.jpg,70,236,71,257, ... ,128,312
# 讀取數據集
# 將csv中的標註點數據讀入(N,2)數組中,其中N是特徵點的數量。讀取數據代碼如下:
landmarks_frame = pd.read_csv('data/faces/face_landmarks.csv')
n = 65
img_name = landmarks_frame.iloc[n, 0] #第65行的圖片的名字
# landmarks = landmarks_frame.iloc[n, 1:].as_matrix()
landmarks = landmarks_frame.iloc[n, 1:].values #第65行的圖片的標註
landmarks = landmarks.astype('float').reshape(-1, 2)
print('Image name: {}'.format(img_name))
print('Landmarks shape: {}'.format(landmarks.shape))
print('First 4 Landmarks: {}'.format(landmarks[:4]))
# 寫一個簡單的函數來展示一張圖片和它對應的標註點作爲例子。
def show_landmarks(image, landmarks):
"""顯示帶有地標的圖片"""
plt.imshow(image)
plt.scatter(landmarks[:, 0], landmarks[:, 1], s=10, marker='.', c='r')
plt.pause(0.001) # pause a bit so that plots are updated
plt.figure()
show_landmarks(io.imread(os.path.join('data/faces/', img_name)), landmarks)
plt.show()
# 數據集類
# torch.utils.data.Dataset是表示數據集的抽象類,因此自定義數據集應繼承Dataset並覆蓋以下方法 * __len__ 實現 len(dataset) 返還數據集的尺寸。 * __getitem__用來獲取一些索引數據,例如 dataset[i] 中的(i)。
# 建立數據集類
# 我們的數據樣本將按這樣一個字典{'image': image, 'landmarks': landmarks}組織。 我們的數據集類將添加一個可選參數transform 以方便對樣本進行預處理。下一節我們會看到什麼時候需要用到transform參數。 __init__方法如下圖所示:
class FaceLandmarksDataset(Dataset):
"""面部標記數據集."""
def __init__(self, csv_file, root_dir, transform=None):
"""
csv_file(string):帶註釋的csv文件的路徑。
root_dir(string):包含所有圖像的目錄。
transform(callable, optional):一個樣本上的可用的可選變換
"""
self.landmarks_frame = pd.read_csv(csv_file)
self.root_dir = root_dir
self.transform = transform
def __len__(self):
return len(self.landmarks_frame)
def __getitem__(self, idx):
img_name = os.path.join(self.root_dir, self.landmarks_frame.iloc[idx, 0])
image = io.imread(img_name)
landmarks = self.landmarks_frame.iloc[idx, 1:]
landmarks = np.array([landmarks])
landmarks = landmarks.astype('float').reshape(-1, 2)
sample = {'image': image, 'landmarks': landmarks}
if self.transform:
sample = self.transform(sample)
return sample
# 數據可視化
# 實例化這個類並遍歷數據樣本。我們將會打印出前四個例子的尺寸並展示標註的特徵點。 代碼如下圖所示:
face_dataset = FaceLandmarksDataset(csv_file = 'data/faces/face_landmarks.csv',
root_dir = 'data/faces/')
fig = plt.figure()
for i in range(len(face_dataset)):
sample = face_dataset[i]
print(i, sample['image'].shape, sample['landmarks'].shape)
ax = plt.subplot(1, 4, i+1)
plt.tight_layout()
ax.set_title('Sample #{}'.format(i))
ax.axis('off')
show_landmarks(**sample)
if i==3:
plt.show()
break
# 數據變換
# 通過上面的例子我們會發現圖片並不是同樣的尺寸。絕大多數神經網絡都假定圖片的尺寸相同。因此我們需要做一些預處理。讓我們創建三個轉換: * Rescale:縮放圖片 * RandomCrop:對圖片進行隨機裁剪。這是一種數據增強操作 * ToTensor:把numpy格式圖片轉爲torch格式圖片 (我們需要交換座標軸).
# 我們會把它們寫成可調用的類的形式而不是簡單的函數,這樣就不需要每次調用時傳遞一遍參數。我們只需要實現__call__方法,必 要的時候實現 __init__方法。我們可以這樣調用這些轉換:
# tsfm = Transform(params)
# transformed_sample = tsfm(sample)
# 觀察下面這些轉換是如何應用在圖像和標籤上的。
class Rescale(object):
"""將樣本中的圖像重新縮放到給定大小。.
Args:
output_size(tuple或int):所需的輸出大小。 如果是元組,則輸出爲
與output_size匹配。 如果是int,則匹配較小的圖像邊緣到output_size保持縱橫比相同。
"""
def __init__(self, output_size):
assert isinstance(output_size, (int, tuple))
self.output_size = output_size
def __call__(self, sample):
image, landmarks = sample['image'], sample['landmarks']
h, w = image.shape[:2]
if isinstance(self.output_size, int):
if h>w:
new_h, new_w = self.output_size * h / w, self.output_size
else:
new_h, new_w = self.output_size, self.output_size * w / h
else:
new_h, new_w = self.output_size
new_h, new_w = int(new_h), int(new_w)
img = transform.resize(image, (new_h, new_w))
# h and w are swapped for landmarks because for images,
# x and y axes are axis 1 and 0 respectively
landmarks = landmarks * [new_w / w, new_h / h]
return {'image': img, 'landmarks': landmarks}
class RandomCrop(object):
"""隨機裁剪樣本中的圖像.
Args:
output_size(tuple或int):所需的輸出大小。 如果是int,方形裁剪是。
"""
def __init__(self, output_size):
assert isinstance(output_size, (int, tuple))
if isinstance(output_size, int):
self.output_size = (output_size, output_size)
else:
assert len(output_size) == 2
self.output_size = output_size
def __call__(self, sample):
image, landmarks = sample['image'], sample['landmarks']
h, w = image.shape[:2]
new_h, new_w = self.output_size
top = np.random.randint(0, h - new_h)
left = np.random.randint(0, w - new_w)
image = image[top: top + new_h,
left: left + new_w]
landmarks = landmarks - [left, top]
return {'image': image, 'landmarks': landmarks}
class ToTensor(object):
"""將樣本中的ndarrays轉換爲Tensors."""
def __call__(self, sample):
image, landmarks = sample['image'], sample['landmarks']
# 交換顏色軸因爲
# numpy包的圖片是: H * W * C
# torch包的圖片是: C * H * W
image = image.transpose((2, 0, 1))
return {'image': torch.from_numpy(image),
'landmarks': torch.from_numpy(landmarks)}
# 組合轉換
# 接下來把這些轉換應用到一個例子上。
# 我們想要把圖像的短邊調整爲256,然後隨機裁剪(randomcrop)爲224大小的正方形。也就是說,我們打算組合一個Rescale和 RandomCrop的變換。 我們可以調用一個簡單的類 torchvision.transforms.Compose來實現這一操作。具體實現如下
scale = Rescale(256)
crop = RandomCrop(128)
composed = transforms.Compose([Rescale(256),
RandomCrop(224)])
# 在樣本上應用上述的每個變換。
fig = plt.figure()
sample = face_dataset[65]
for i, tsfrm in enumerate([scale, crop, composed]):
transformed_sample = tsfrm(sample)
ax = plt.subplot(1, 3, i + 1)
plt.tight_layout()
ax.set_title(type(tsfrm).__name__)
show_landmarks(**transformed_sample)
plt.show()
# 迭代數據集
# 讓我們把這些整合起來以創建一個帶組合轉換的數據集。總結一下,每次這個數據集被採樣時: * 及時地從文件中讀取圖片 * 對讀取的圖片應用轉換 * 由於其中一步操作是隨機的 (randomcrop) , 數據被增強了
# 可以像之前那樣使用for i in range循環來對所有創建的數據集執行同樣的操作。
transformed_dataset = FaceLandmarksDataset(csv_file='data/faces/face_landmarks.csv',
root_dir='data/faces/',
transform=transforms.Compose([
Rescale(256),
RandomCrop(224),
ToTensor()
]))
for i in range(len(transformed_dataset)):
sample = transformed_dataset[i]
print(i, sample['image'].size(), sample['landmarks'].size())
if i == 3:
break
# 但是,對所有數據集簡單的使用for循環犧牲了許多功能,尤其是: * 批量處理數據 * 打亂數據 * 使用多線程multiprocessingworker 並行加載數據。
# torch.utils.data.DataLoader是一個提供上述所有這些功能的迭代器。下面使用的參數必須是清楚的。一個值得關注的參數是collate_fn, 可以通過它來決定如何對數據進行批處理。但是絕大多數情況下默認值就能運行良好
dataloader = DataLoader(transformed_dataset, batch_size=4,
shuffle=True, num_workers=4)
# 輔助功能:顯示批次
def show_landmarks_batch(sample_batched):
"""Show image with landmarks for a batch of samples."""
images_batch, landmarks_batch = \
sample_batched['image'], sample_batched['landmarks']
batch_size = len(images_batch)
im_size = images_batch.size(2)
grid_border_size = 2
grid = utils.make_grid(images_batch) #make_grid的作用是將若干幅圖像拼成一幅圖像
plt.imshow(grid.numpy().transpose((1, 2, 0)))
for i in range(batch_size):
plt.scatter(landmarks_batch[i, :, 0].numpy() + i * im_size + (i + 1) * grid_border_size,
landmarks_batch[i, :, 1].numpy() + grid_border_size,
s=10, marker='.', c='r')
plt.title('Batch from dataloader')
for i_batch, sample_batched in enumerate(dataloader):
print(i_batch, sample_batched['image'].size(),
sample_batched['landmarks'].size())
# 觀察第4批次並停止。
if i_batch == 3:
plt.figure()
show_landmarks_batch(sample_batched)
plt.axis('off')
plt.ioff()
plt.show()
break
# 後記:torchvision
在這篇教程中我們學習瞭如何構造和使用數據集類(datasets),轉換(transforms)和數據加載器(dataloader)。
torchvision包提供了 常用的數據集類(datasets)和轉換(transforms)。你可能不需要自己構造這些類。
torchvision中還有一個更常用的數據集類ImageFolder。 它假定了數據集是以如下方式構造的:
root/ants/xxx.png
root/ants/xxy.jpeg
root/ants/xxz.png
.
.
.
root/bees/123.jpg
root/bees/nsdf3.png
root/bees/asd932_.png
# 其中'ants’,bees’等是分類標籤。在PIL.Image中你也可以使用類似的轉換(transforms)例如RandomHorizontalFlip,Scale。利 用這些你可以按如下的方式創建一個數據加載器(dataloader) :
import torch
from torchvision import transforms, datasets
data_transform = transforms.Compose([
transforms.RandomSizedCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])
])
hymenoptera_dataset = datasets.ImageFolder(root='hymenoptera_data/train',
transform=data_transform)
dataset_loader = torch.utils.data.DataLoader(hymenoptera_dataset,
batch_size=4, shuffle=True,
num_workers=4)
結果:
Image name: person-7.jpg
Landmarks shape: (68, 2)
First 4 Landmarks: [[32. 65.]
[33. 76.]
[34. 86.]
[34. 97.]]
0 (324, 215, 3) (68, 2)
1 (500, 333, 3) (68, 2)
2 (250, 258, 3) (68, 2)
3 (434, 290, 3) (68, 2)
參考網址:http://www.pytorch123.com/ThirdSection/DataLoding/