torchvision.transforms系列

原創

2021-01-30 10:06

torchvision.transforms是pytorch中的圖像預處理包，是圖像預處理的必備，包含了很多種對圖像數據進行變換的函數，這些都是在我們進行圖像數據讀入步驟中必不可少的。下面來分別介紹一下。

這裏有個全的：https://blog.csdn.net/u011995719/article/details/85107009

transforms.Compose()

將一系列transforms操作壓縮在一起，或者說是打包在一起，各種操作用列表封裝。如：

trans_train = transforms.Compose([transforms.RandomResizedCrop(224),
                                  transforms.RandomHorizontalFlip(),
                                  transforms.ToTensor(),
                                  transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])])

transforms.RandomResizedCrop(224)

將給定圖像隨機裁剪爲不同的大小和寬高比，然後縮放所裁剪得到的圖像爲指定的大小。即先隨機採集，然後對裁剪得到的圖像縮放爲同一指定的大小。括號裏的224就是指定的圖片大小。

transforms.RandomHorizontalFlip()

以指定的概率隨機水平翻轉給定的PIL的圖像，默認概率爲0.5。

transforms.ToTensor()

ToTensor是指把PIL.Image(RGB) 或者numpy.ndarray(H x W x C) 從0到255的值映射到0到1的範圍內，並轉化成Tensor格式。ToTensor()能夠把灰度範圍從0-255變換到0-1之間。

transform.Normalize( mean=[ ] , std=[ ] )

transform.Normalize()把0-1變換到(-1,1).那transform.Normalize()是怎麼工作的呢？具體地說，對每個通道而言，Normalize執行以下操作：
image=(image-mean)/std
Normalize(mean=[0.5], std=[0.5])，這裏的兩個0.5分別表示對張量進行歸一化的全局平均值和方差。因爲灰度圖像只有一個通道，如果是RGB彩色圖像則需要寫三個數字，如transforms.Normalize(mean=[m1,m2,m3], std=[n1,n2,n3])

transform.resize( image, output_shape )

通過transform.resize()裁剪後的圖片是以float64的格式存儲的，數值的取值範圍是（0~1）。image 是需要改變尺寸的圖片，output_shape是新的圖片尺寸。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

torchvision.transforms系列

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

前端面試題 - Node JS與V8是什麼關係？

前端面試題 - V8是什麼？

DevExpress WinForms中文教程 - HTML & CSS支持的實戰應用(一)

Visual C++界面開發組件Xtreme Toolkit Pro v24測試版發佈——完全支持SVG

有隙可乘 - Android 序列化漏洞分析實戰

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結