torchvision中Transform的normalize參數含義

比如原來的tensor是三個維度的,值在0到1之間,經過以下變換之後就到了-1到1區間。

transforms.Normalize((.5,.5,.5),(.5,.5,.5))

transforms的源碼中解釋:

input[channel] = (input[channel] - mean[channel]) / std[channel]

假設你數據的範圍是圖片的數據範圍四[0,1],那麼如果mean = [.5, .5, .5],std = [.5, .5, .5],根據上述式子計算
(0−0.5)/0.5=−1 (0-0.5)/0.5= -1(0−0.5)/0.5=−1 ,(1−0.5)/0.5=1 (1-0.5)/0.5= 1(1−0.5)/0.5=1就可將數據歸一化到[-1,1]。

疑問

在pytorch的官方教程裏,經常看到

normalize = T.Normalize(mean = [0.485, 0.456, 0.406], 
                         std = [0.229, 0.224, 0.225])

圖片的RGB的範圍不是[0,255]嗎,那麼圖片的3個通道的像素值不應該是[0,255]嗎?那麼用這樣的歸一化參數怎麼能歸一化到[-1,1]呢?

解答

第一種情況:就是在加載數據集的時候就已經將圖片轉換爲[0, 1],例如imageNet數據集就是在加載ImageNet的數據的時候就轉換成[0,1]。
第二種情況:
應用了torchvision.transforms.ToTensor,其作用是
( Converts a PIL Image or numpy.ndarray (H x W x C) in the range [0, 255] to a torch.FloatTensor of shape (C x H x W) in the range [0.0, 1.0] )

所以我們常常在代碼中看到normallize在ToTensor之後

self.transforms = T.Compose([
                   T.Scale(224),
                   T.CenterCrop(224),
                   T.ToTensor(),
                   normalize
               ]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章