写给程序员的机器学习入门 (八) - 卷积神经网络 (CNN) - 图片分类和验证码识别

2024-02-25 21:05:45

这一篇将会介绍卷积神经网络 (CNN)，CNN 模型非常适合用来进行图片相关的学习，例如图片分类和验证码识别，也可以配合其他模型实现 OCR。

使用 Python 处理图片

在具体介绍 CNN 之前，我们先来看看怎样使用 Python 处理图片。Python 处理图片最主要使用的类库是 Pillow (Python2 PIL 的 fork)，使用以下命令即可安装：

pip3 install Pillow

一些简单操作的例子如下，如果你想了解更多可以参考 Pillow 的文档：

# 打开图片

>>> from PIL import Image

>>> img = Image.open("1.png")

# 查看图片信息

>>> img.size

(175, 230)

>>> img.mode

'RGB'

>>> img

<PIL.PngImagePlugin.PngImageFile image mode=RGB size=175x230 at 0x10B807B50>

# 缩放图片

>>> img1 = img.resize((20, 30))

>>> img1

<PIL.Image.Image image mode=RGB size=20x30 at 0x106426FD0>

# 裁剪图片

>>> img2 = img.crop((0, 0, 16, 16))

>>> img2

<PIL.Image.Image image mode=RGB size=16x16 at 0x105E0EFD0>

# 保存图片

>>> img1.save("11.png")

>>> img2.save("12.png")

使用 pytorch 处理图片时要首先获取图片的数据，即各个像素对应的颜色值，例如大小为 175 * 230，模式是 RGB 的图片会拥有 175 * 230 * 3 的数据，3 分别代表红绿蓝的值，范围是 0 ～ 255，把图片转换为 pytorch 的 tensor 对象需要经过 numpy 中转，以下是转换的例子：

>>> import numpy

>>> import torch

>>> v = numpy.asarray(img)

>>> t = torch.tensor(v)

>>> t

tensor([[[255, 253, 254],

         [255, 253, 254],

         [255, 253, 254],

         ...,

         [255, 253, 254],

         [255, 253, 254],

         [255, 253, 254]],

        [[255, 253, 254],

         [255, 253, 254],

         [255, 253, 254],

         ...,

         [255, 253, 254],

         [255, 253, 254],

         [255, 253, 254]],

        [[255, 253, 254],

         [255, 253, 254],

         [255, 253, 254],

         ...,

         [255, 253, 254],

         [255, 253, 254],

         [255, 253, 254]],

        ...,

        [[255, 253, 254],

         [255, 253, 254],

         [255, 253, 254],

         ...,

         [255, 253, 254],

         [255, 253, 254],

         [255, 253, 254]],

        [[255, 253, 254],

         [255, 253, 254],

         [255, 253, 254],

         ...,

         [255, 253, 254],

         [255, 253, 254],

         [255, 253, 254]],

        [[255, 253, 254],

         [255, 253, 254],

         [255, 253, 254],

         ...,

         [255, 253, 254],

         [255, 253, 254],

         [255, 253, 254]]], dtype=torch.uint8)

>>> t.shape

torch.Size([230, 175, 3])

可以看到 tensor 的维度是 高度 x 宽度 x 通道数 (RGB 图片为 3，黑白图片为 1），可是 pytorch 的 CNN 模型会要求维度为 通道数 x 宽度 x 高度，并且数值应该正规化到 0 ~ 1 的范围内，使用以下代码可以实现：

# 交换维度 0 (高度) 和 维度 2 (通道数)

>>> t1 = t.transpose(0, 2)

>>> t1.shape

torch.Size([3, 175, 230])

>>> t2 = t1 / 255.0

>>> t2

tensor([[[1.0000, 1.0000, 1.0000,  ..., 1.0000, 1.0000, 1.0000],

         [1.0000, 1.0000, 1.0000,  ..., 1.0000, 1.0000, 1.0000],

         [1.0000, 1.0000, 1.0000,  ..., 1.0000, 1.0000, 1.0000],

         ...,

         [1.0000, 1.0000, 1.0000,  ..., 1.0000, 1.0000, 1.0000],

         [1.0000, 1.0000, 1.0000,  ..., 1.0000, 1.0000, 1.0000],

         [1.0000, 1.0000, 1.0000,  ..., 1.0000, 1.0000, 1.0000]],

        [[0.9922, 0.9922, 0.9922,  ..., 0.9922, 0.9922, 0.9922],

         [0.9922, 0.9922, 0.9922,  ..., 0.9922, 0.9922, 0.9922],

         [0.9922, 0.9922, 0.9922,  ..., 0.9922, 0.9922, 0.9922],

         ...,

         [0.9922, 0.9922, 0.9922,  ..., 0.9922, 0.9922, 0.9922],

         [0.9922, 0.9922, 0.9922,  ..., 0.9922, 0.9922, 0.9922],

         [0.9922, 0.9922, 0.9922,  ..., 0.9922, 0.9922, 0.9922]],

        [[0.9961, 0.9961, 0.9961,  ..., 0.9961, 0.9961, 0.9961],

         [0.9961, 0.9961, 0.9961,  ..., 0.9961, 0.9961, 0.9961],

         [0.9961, 0.9961, 0.9961,  ..., 0.9961, 0.9961, 0.9961],

         ...,

         [0.9961, 0.9961, 0.9961,  ..., 0.9961, 0.9961, 0.9961],

         [0.9961, 0.9961, 0.9961,  ..., 0.9961, 0.9961, 0.9961],

         [0.9961, 0.9961, 0.9961,  ..., 0.9961, 0.9961, 0.9961]]])

之后就可以围绕类似上面例子中 t2 这样的 tensor 对象做文章了

码农公寓

使用 Python 处理图片

相关文章