pytorch学习笔记四:数据的预处理模块

transforms是pytorch中常用的图像预处理方法,这个在torchvision计算机视觉工具包中。在安装pytorch时顺便安装了torchvision,在torchvision中,有三个主要的模块:
● torchvision.transforms:常用的图像预处理方法,比如:标准化、中心化、旋转、翻转等;
● torchvision.datasets:常用的数据集的dataset实现,例如:MNIST、CIFAR-10、ImageNet等;
● torchvision.models:常用的预训练模型,AlexNet、VGG、ResNet等。

下面来详细了解一下transforms中图像预处理方法:

一、裁剪 —— Crop

1、随机裁剪:transforms.RandomCrop

transforms.RandomCrop(
    size,
    padding=None,
    pad_if_needed=False,
    fill=0,
    padding_mode='constant',
)

功能:根据给定的size进行随机裁剪
参数:
size-(sequence or int):若为sequence,则为(h, w),若为int,则为(int, int)
padding - (int or sequence, optional):此参数是设置填充多少个pixel;
若为int,表示图像上下左右均填充int个pixel,例如padding=4,表示图像上下左右均填充4个pixel,若为32×32,则图像填充后为40×40;
若为sequence,若为2个数,第一个数表示左右填充多少,第二个数表示上下填充多少;当有四个数时表示左、上、右、下
fill:表示需要填充的值,默认为0.当值为int时,表示各通道均填充该值,当值为3时,表示RGB三个通道各需要填充的值;
padding_mode:填充模式,有4中填充模式:1、constant:常数填充;2、edge:图像的边缘值填充;3、reflect;4、symmetric

2、中心裁剪transforms.CenterCrop

torchvision.transforms.CenterCrop(size)

功能:依据给定的参数进行裁剪;
参数:
size:若为sequence,则为(h, w), 若为int, 则为(int, int)

3、随机长宽比裁剪transforms.RandomResizedCrop()

torchvision.transforms.RandomResizedCrop(
    size,
    scale=(0.08, 1.0),
    ratio=(0.75, 1.3333333333333333),
    interpolation=2,
)

功能:随机大小,随机长宽比裁剪原始图片,最后将图片 resize 到设定好的 size
参数:
size- 输出的分辨率
scale- 随机 crop 的大小区间,如 scale=(0.08, 1.0),表示随机 crop 出来的图片会在的 0.08
倍至 1 倍之间。
ratio- 随机长宽比设置
interpolation- 插值的方法,默认为双线性插值(PIL.Image.BILINEAR)

4、上下左右中心裁剪transforms.FiveCrop()

torchvision.transforms.FiveCrop(size)

功能:对图片进行上下左右以及中心裁剪,获得 5 张图片,返回一个 4D-tensor
参数:
size- (sequence or int),若为 sequence,则为(h,w),若为 int,则(size,size)

5、上下左右中心裁剪后翻转transforms.TenCrop()

torchvision.transforms.TenCrop(size, vertical_flip=False)

功能:对图片进行上下左右以及中心裁剪,然后全部翻转(水平或者垂直),获得 10 张图
片,返回一个 4D-tensor。
参数:
size- (sequence or int),若为 sequence,则为(h,w),若为 int,则(size,size)
vertical_flip (bool) - 是否垂直翻转,默认为 flase,即默认为水平翻转

二、翻转和旋转——Flip and Rotation

1、依概率p进行水平翻转:transforms.RandomHorizontalFlip

torchvision.transforms.RandomHorizontalFlip(p=0.5)

功能:依据概率 p 对 PIL 图片进行水平翻转
参数:
p- 概率,默认值为 0.5

2、依概率p垂直翻转:transforms.RandomVerticalFlip

torchvision.transforms.RandomVerticalFlip(p=0.5)

功能:依据概率 p 对 PIL 图片进行垂直翻转
参数:
p- 概率,默认值为 0.5

3、随机旋转:transforms.RandomRotation

torchvision.transforms.RandomRotation(degrees, resample=False, 
                                      expand=False, center=None)

功能:依 degrees 随机旋转一定角度
参数:
degress- (sequence or float or int) ,若为单个数,如 30,则表示在(-30,+30)之间随机旋转;若为sequence,如(30,60),则表示在 30-60 度之间随机旋转;
resample- 重采样方法选择,可选
PIL.Image.NEAREST, PIL.Image.BILINEAR, PIL.Image.BICUBIC,默认为最近邻

三、图像变换

1、resize:transforms.Resize()

 torchvision.transforms.Resize(size, interpolation=2)

功能:重置图像分辨率
参数:
size- If size is an int, if height > width, then image will be rescaled to (size * height / width,
size),所以建议 size 设定为 h*w
interpolation- 插值方法选择,默认为 PIL.Image.BILINEAR

2、标准化:transforms.Normalize

torchvision.transforms.Normalize(mean, std)

功能:对数据按通道进行标准化,即先减均值,再除以标准差,注意是 hwc

3、转化为Tensor:transforms.ToTensor

torchvision.transforms.ToTensor()

功能:将 PIL Image 或者 ndarray 转换为 tensor,并且归一化至[0-1]
注意事项:归一化至[0-1]是直接除以 255,若自己的 ndarray 数据尺度有变化,则需要自行
修改。

4、填充:transforms.Pad

torchvision.transforms.Pad(padding, fill=0, padding_mode='constant')

功能:对图像进行填充
参数:
padding-(sequence or int, optional),此参数是设置填充多少个 pixel。当为 int 时,图像上下左右均填充 int 个,例如 padding=4,则上下左右均填充 4 个 pixel,若为 3232,则会变成 4040。

5、修改亮度、对比度和饱和度:transforms.ColorJitter

torchvision.transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0)

功能:修改修改亮度、对比度和饱和度

6、转灰度图:transforms.Grayscale

torchvision.transforms.Grayscale(num_output_channels=1)

功能:将图片转换为灰度图
参数:
num_output_channels- (int) ,当为 1 时,正常的灰度图,当为 3 时, 3 channel with r == g == b

7、线性变换:transforms.LinearTransformation()

torchvision.transforms.LinearTransformation(transformation_matrix)

8、仿射变换:transforms.RandomAffine()

torchvision.transforms.RandomAffine(degrees, translate=None, scale=None, shear=None, resample=False, fillcolor=0)

9、依概率p转化为灰度图:transforms.RandomGrayscale

torchvision.transforms.RandomGrayscale(p=0.1)

功能:依概率 p 将图片转换为灰度图,若通道数为 3,则 3 channel with r == g == b

10、将数据转化为PILImage:transforms.ToPILImage

torchvision.transforms.ToPILImage(mode=None)

功能:将 tensor 或者 ndarray 的数据转换为 PIL Image 类型数据
参数:
mode- 为 None 时,为 1 通道, mode=3 通道默认转换为 RGB,4 通道默认转换为 RGBA

四、对transforms 操作,使数据增强更灵活

1.transforms.RandomChoice(transforms)

功能:从给定的一系列 transforms 中选一个进行操作,randomly picked from a list

2.transforms.RandomApply(transforms, p=0.5)

功能:给一个 transform 加上概率,以一定的概率执行该操作

3.transforms.RandomOrder

功能:将 transforms 中的操作顺序随机打乱

五、在二分类任务中用到的transforms方法及实现过程

在人民币二分类任务中,对数据的预处理中用到的transforms方法如下:

train_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

valid_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

其中transforms.Compose方法时将一系列的transforms方法进行有序组合包装,具体实现的时候依次用包装的方法对图像进行预处理。

调试代码可以查看一下transforms的调用机制:
进入transforms.py文件中,在__call__里面是一系列数据预处理方法
pytorch学习笔记四:数据的预处理模块
step into 可以看到transforms的预处理方法其实是调用torch.nn.function中的预处理方法的
pytorch学习笔记四:数据的预处理模块
pytorch学习笔记四:数据的预处理模块
其余方法类似。(可debug看一下详细的实现过程)

总结:pytorch的图像预处理模块transforms,集成了各种图像预处理方法,在实际应用中要根据需要选择合适的预处理方法,另外要注意训练集和测试集选择预处理方法的不同。

上一篇:题目翻译(23)


下一篇:2022 简思短解