8层(5个conv 3个fc)
绿的norm层后来证明没啥用
现在看它的conv1用的卷积核11 stride4就挺离谱的
特点:
①用的relu激活函数,成功解决了Sigmoid在网络较深时的梯度弥散问题。(虽然别人提过 略略略)
**在ReLU之后会做一个normalization(没啥用 阿一古)
②最后几个全连接层使用了Dropout随机忽略一部分神经元,以避免模型过拟合。(虽然别人提过 略略略)
③全部用maxpooling (别人大部分用avgpooling 糊掉了 他们糊掉了没想到全部用maxpooling吗?)
和vgg简单比较
alex要8h vgg要3天
vgg更深 更细致,准确率高15百分点