进击J9：Inception v3算法实战与解析

2024-10-02 08:08:55

???? 本文为????365天深度学习训练营中的学习记录博客

???? 原作者：K同学啊

一、实验目的：

了解并学习InceptionV3相对于InceptionV1改进了哪些地方（重点）

使用Inception v3完成天气识别案例

二、实验环境：

语言环境：python 3.8

编译器：Jupyter notebook

深度学习环境：Pytorch

torch==2.4.0+cu124

torchvision==0.19.0+cu124

三、Inception v3

Inception v3论文：Rethinking the Inception Architecture for Computer Vision

Inception v3是Inception网络系列的第三个版本，它在ImageNet图像识别竞赛中取得了优异成绩，尤其是在大规模图像识别任务中表现出色。

Inception v3的主要特点如下：

更深的网络结构：Inception v3比之前的Inception网络结构更深，包含了48层卷积层。这使得网络可以提取更多层次的特征，从而在图像识别任务上取得更好的效果。
使用Factorized Convolutions：Inception v3采用了Factorized Convolutions（分解卷积），将较大的卷积核分解为多个较小的卷积核。这种方法可以降低网络的参数数量，减少计算复杂度，同时保持良好的性能。
使用Batch Normalization：Inception v3在每个卷积层之后都添加了Batch Normalization（BN），这有助于网络的收敛和泛化能力。BN可以减少Internal Covariate Shift（内部协变量偏移）现象，加快训练速度，同时提高模型的鲁棒性。
辅助分类器：Inception v3引入了辅助分类器，可以在网络训练过程中提供额外的梯度信息，帮助网络更好地学习特征。辅助分类器位于网络的某个中间层，其输出会与主分类器的输出进行加权融合，从而得到最终的预测结果。
基于RMSProp的优化器：Inception v3使用了RMSProp优化器进行训练。相比于传统的随机梯度下降（SGD）方法，RMSProp可以自适应地调整学习率，使得训练过程更加稳定，收敛速度更快。

Inception v3在图像分类、物体检测和图像分割等计算机视觉任务中均取得了显著的效果。然而，由于其较大的网络结构和计算复杂度，Inception v3在实际应用中可能需要较高的硬件要求。

相对于Inception v1的Inception Module结构，Inception v3中做出了如下改动：

将 5×5 的卷积分解为两个 3×3 的卷积运算以提升计算速度。尽管这有点违反直觉，但一个 5×5 的卷积在计算成本上是一个 3×3 卷积的 2.78 倍。所以叠加两个 3×3 卷积实际上在性能上会有所提升，如下图所示：

此外，作者将 n×n 的卷积核尺寸分解为 1×n 和 n×1 两个卷积。例如，一个 3×3 的卷积等价于首先执行一个 1×3 的卷积再执行一个 3×1 的卷积。他们还发现这种方法在成本上要比单个 3×3 的卷积降低 33%，这一结构如下图所示：

此处如果 n=3，则与上一张图像一致。最左侧的 5x5 卷积可被表示为两个 3x3 卷积，它们又可以被表示为 1x3 和 3x1 卷积。
模块中的滤波器组被扩展（即变得更宽而不是更深），以解决表征性瓶颈。如果该模块没有被拓展宽度，而是变得更深，那么维度会过多减少，造成信息损失。如下图所示：

最后实现的inception v3网络是上图结构图如下：

四、Pytorch复现

设置GPU、导入数据、划分数据集等步骤同前。

1. 构建模型

class BasicConv2d(nn.Module):
    def __init__(self, in_channel, out_channel, **kwargs):
        super(BasicConv2d, self).__init__()
        self.conv = nn.Conv2d(in_channel, out_channel, bias=False, **kwargs)
        self.norm = nn.BatchNorm2d(out_channel, eps=0.001)
        self.relu = nn.ReLU(inplace=True)
 
    def forward(self, x):
        x = self.conv(x)
        x = self.norm(x)
        x = self.relu(x)
        return x

class InceptionA(nn.Module):

   def __init__(self, in_channels, pool_features):
       super(InceptionA, self).__init__()
       self.branch1x1 = BasicConv2d(in_channels, 64, kernel_size=1) # 1

       self.branch5x5_1 = BasicConv2d(in_channels, 48, kernel_size=1)
       self.branch5x5_2 = BasicConv2d(48, 64, kernel_size=5, padding=2)

       self.branch3x3dbl_1 = BasicConv2d(in_channels, 64, kernel_size=1)
       self.branch3x3dbl_2 = BasicConv2d(64, 96, kernel_size=3, padding=1)
       self.branch3x3dbl_3 = BasicConv2d(96, 96, kernel_size=3, padding=1)

       self.branch_pool = BasicConv2d(in_channels, pool_features, kernel_size=1)

   def forward(self, x):
       branch1x1 = self.branch1x1(x)

       branch5x5 = self.branch5x5_1(x)
       branch5x5 = self.branch5x5_2(branch5x5)

       branch3x3dbl = self.branch3x3dbl_1(x)
       branch3x3dbl = self.branch3x3dbl_2(branch3x3dbl)
       branch3x3dbl = self.branch3x3dbl_3(branch3x3dbl)

       branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
       branch_pool = self.branch_pool(branch_pool)

       outputs = [branch1x1, branch5x5, branch3x3dbl, branch_pool]
       return torch.cat(outputs, 1)

class InceptionB(nn.Module):

   def __init__(self, in_channels, channels_7x7):
       super(InceptionB, self).__init__()
       self.branch1x1 = BasicConv2d(in_channels, 192, kernel_size=1)

       c7 = channels_7x7
       self.branch7x7_1 = BasicConv2d(in_channels, c7, kernel_size=1)
       self.branch7x7_2 = BasicConv2d(c7, c7, kernel_size=(1, 7), padding=(0, 3))
       self.branch7x7_3 = BasicConv2d(c7, 192, kernel_size=(7, 1), padding=(3, 0))

       self.branch7x7dbl_1 = BasicConv2d(in_channels, c7, kernel_size=1)
       self.branch7x7dbl_2 = BasicConv2d(c7, c7, kernel_size=(7, 1), padding=(3, 0))
       self.branch7x7dbl_3 = BasicConv2d(c7, c7, kernel_size=(1, 7), padding=(0, 3))
       self.branch7x7dbl_4 = BasicConv2d(c7, c7, kernel_size=(7, 1), padding=(3, 0))
       self.branch7x7dbl_5 = BasicConv2d(c7, 192, kernel_size=(1, 7), padding=(0, 3))

       self.branch_pool = BasicConv2d(in_channels, 192, kernel_size=1)

   def forward(self, x):
       branch1x1 = self.branch1x1(x)

       branch7x7 = self.branch7x7_1(x)
       branch7x7 = self.branch7x7_2(branch7x7)
       branch7x7 = self.branch7x7_3(branch7x7)

       branch7x7dbl = self.branch7x7dbl_1(x)
       branch7x7dbl = self.branch7x7dbl_2(branch7x7dbl)
       branch7x7dbl = self.branch7x7dbl_3(branch7x7dbl)
       branch7x7dbl = self.branch7x7dbl_4(branch7x7dbl)
       branch7x7dbl = self.branch7x7dbl_5(branch7x7dbl)

       branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
       branch_pool = self.branch_pool(branch_pool)

       outputs = [branch1x1, branch7x7, branch7x7dbl, branch_pool]
       return torch.cat(outputs, 1)

class InceptionC(nn.Module):

   def __init__(self, in_channels):
       super(InceptionC, self).__init__()
       self.branch1x1 = BasicConv2d(in_channels, 320, kernel_size=1)

       self.branch3x3_1 = BasicConv2d(in_channels, 384, kernel_size=1)
       self.branch3x3_2a = BasicConv2d(384, 384, kernel_size=(1, 3), padding=(0, 1))
       self.branch3x3_2b = BasicConv2d(384, 384, kernel_size=(3, 1), padding=(1, 0))

       self.branch3x3dbl_1 = BasicConv2d(in_channels, 448, kernel_size=1)
       self.branch3x3dbl_2 = BasicConv2d(448, 384, kernel_size=3, padding=1)
       self.branch3x3dbl_3a = BasicConv2d(384, 384, kernel_size=(1, 3), padding=(0, 1))
       self.branch3x3dbl_3b = BasicConv2d(384, 384, kernel_size=(3, 1), padding=(1, 0))

       self.branch_pool = BasicConv2d(in_channels, 192, kernel_size=1)

   def forward(self, x):
       branch1x1 = self.branch1x1(x)

       branch3x3 = self.branch3x3_1(x)
       branch3x3 = [
           self.branch3x3_2a(branch3x3),
           self.branch3x3_2b(branch3x3), 
       ]
       branch3x3 = torch.cat(branch3x3, 1) 

       branch3x3dbl = self.branch3x3dbl_1(x) 
       branch3x3dbl = self.branch3x3dbl_2(branch3x3dbl) 
       branch3x3dbl = [ 
           self.branch3x3dbl_3a(branch3x3dbl), 
           self.branch3x3dbl_3b(branch3x3dbl), 
       ]
       branch3x3dbl = torch.cat(branch3x3dbl, 1) 

       branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)

       branch_pool = self.branch_pool(branch_pool) 

       outputs = [branch1x1, branch3x3, branch3x3dbl, branch_pool]

       return torch.cat(outputs, 1)

class ReductionA(nn.Module):
 
    def __init__(self, in_channels):
        super(ReductionA, self).__init__()
        self.branch3x3 = BasicConv2d(in_channels, 384, kernel_size=3, stride=2)
 
        self.branch3x3dbl_1 = BasicConv2d(in_channels, 64, kernel_size=1)
        self.branch3x3dbl_2 = BasicConv2d(64, 96, kernel_size=3, padding=1)
        self.branch3x3dbl_3 = BasicConv2d(96, 96, kernel_size=3, stride=2)
 
    def forward(self, x):
        branch3x3 = self.branch3x3(x)
 
        branch3x3dbl = self.branch3x3dbl_1(x)
        branch3x3dbl = self.branch3x3dbl_2(branch3x3dbl)
        branch3x3dbl = self.branch3x3dbl_3(branch3x3dbl)
 
        branch_pool = F.max_pool2d(x, kernel_size=3, stride=2)
 
        outputs = [branch3x3, branch3x3dbl, branch_pool]
        return torch.cat(outputs, 1)
 
class ReductionB(nn.Module):
 
    def __init__(self, in_channels):
        super(ReductionB, self).__init__()
        self.branch3x3_1 = BasicConv2d(in_channels, 192, kernel_size=1)
        self.branch3x3_2 = BasicConv2d(192, 320, kernel_size=3, stride=2)
 
        self.branch7x7x3_1 = BasicConv2d(in_channels, 192, kernel_size=1)
        self.branch7x7x3_2 = BasicConv2d(192, 192, kernel_size=(1, 7), padding=(0, 3))
        self.branch7x7x3_3 = BasicConv2d(192, 192, kernel_size=(7, 1), padding=(3, 0))
        self.branch7x7x3_4 = BasicConv2d(192, 192, kernel_size=3, stride=2)
 
    def forward(self, x):
        branch3x3 = self.branch3x3_1(x)
        branch3x3 = self.branch3x3_2(branch3x3)
 
        branch7x7x3 = self.branch7x7x3_1(x)
        branch7x7x3 = self.branch7x7x3_2(branch7x7x3)
        branch7x7x3 = self.branch7x7x3_3(branch7x7x3)
        branch7x7x3 = self.branch7x7x3_4(branch7x7x3)
 
        branch_pool = F.max_pool2d(x, kernel_size=3, stride=2)
        outputs = [branch3x3, branch7x7x3, branch_pool]
        return torch.cat(outputs, 1)

class InceptionAux(nn.Module):
 
    def __init__(self, in_channels, num_classes):
        super(InceptionAux, self).__init__()
        self.conv0 = BasicConv2d(in_channels, 128, kernel_size=1)
        self.conv1 = BasicConv2d(128, 768, kernel_size=5)
        self.conv1.stddev = 0.01
        self.fc = nn.Linear(768, num_classes)
        self.fc.stddev = 0.001
 
    def forward(self, x):
        # 17 x 17 x 768
        x = F.avg_pool2d(x, kernel_size=5, stride=3)
        # 5 x 5 x 768
        x = self.conv0(x)
        # 5 x 5 x 128
        x = self.conv1(x)
        # 1 x 1 x 768
        x = x.view(x.size(0), -1)
        # 768
        x = self.fc(x)
        # 1000
        return x

import torch.nn.functional as F
class InceptionV3(nn.Module):
    def __init__(self, num_classes=1000, aux_logits=False, transform_input=False):
        super(InceptionV3, self).__init__()
        self.aux_logits = aux_logits
        self.transform_input = transform_input
        self.Conv2d_1a_3x3 = BasicConv2d(3, 32, kernel_size=3, stride=2)
        self.Conv2d_2a_3x3 = BasicConv2d(32, 32, kernel_size=3)
        self.Conv2d_2b_3x3 = BasicConv2d(32, 64, kernel_size=3, padding=1)
        self.Conv2d_3b_1x1 = BasicConv2d(64, 80, kernel_size=1)
        self.Conv2d_4a_3x3 = BasicConv2d(80, 192, kernel_size=3)
        self.Mixed_5b = InceptionA(192, pool_features=32)
        self.Mixed_5c = InceptionA(256, pool_features=64)
        self.Mixed_5d = InceptionA(288, pool_features=64)
        self.Mixed_6a = ReductionA(288)
        self.Mixed_6b = InceptionB(768, channels_7x7=128)
        self.Mixed_6c = InceptionB(768, channels_7x7=160)
        self.Mixed_6d = InceptionB(768, channels_7x7=160)
        self.Mixed_6e = InceptionB(768, channels_7x7=192)
        if aux_logits:
            self.AuxLogits = InceptionAux(768, num_classes)
        self.Mixed_7a = ReductionB(768)
        self.Mixed_7b = InceptionC(1280)
        self.Mixed_7c = InceptionC(2048)
        self.fc = nn.Linear(2048, num_classes)
 
    def forward(self, x):
        if self.transform_input: # 1
            x = x.clone()
            x[:, 0] = x[:, 0] * (0.229 / 0.5) + (0.485 - 0.5) / 0.5
            x[:, 1] = x[:, 1] * (0.224 / 0.5) + (0.456 - 0.5) / 0.5
            x[:, 2] = x[:, 2] * (0.225 / 0.5) + (0.406 - 0.5) / 0.5
        # 299 x 299 x 3
        x = self.Conv2d_1a_3x3(x)
        # 149 x 149 x 32
        x = self.Conv2d_2a_3x3(x)
        # 147 x 147 x 32
        x = self.Conv2d_2b_3x3(x)
        # 147 x 147 x 64
        x = F.max_pool2d(x, kernel_size=3, stride=2)
        
上一篇：第十三届蓝桥杯真题Java c组C.纸张尺寸(持续更新)
下一篇：Android SQLite的基本使用、生成Excel文件保存到本地-3. Android SQLite及生成Excel文件保存到本地完整代码

码农公寓

一、实验目的：

二、实验环境：

三、Inception v3

四、Pytorch复现

1. 构建模型

相关文章

`相关文章`