对于图片分类问题,利用MLP会出现模型太大(大到离谱)的问题。比如你分类猫狗的模型的参数比世界上所有的狗和猫都多,这显然是不对的。
在处理图片(找寻某一个目标的任务时)遵循两个原则:
1、平移不变性
2、局部性
“卷积就是一个特殊的全连接层”
在此之前,看王木头的视频:从“卷积”、到“图像卷积操作”、再到“卷积神经网络”,“卷积”意义的3次改变
https://www.bilibili.com/video/BV1VV411478E?from=search&seid=1725700777641154181&spm_id_from=333.788.b_636f6d6d656e74.5
这个视频,用不停吃食物,食物不停被消化的例子,试着解释了一下卷积公式的含义。
总结:一个系统,输入是不稳定的,输出是稳定的,那么我们就可以用卷积来求这个系统的存量。
但是那个卷积公式里,体现的只有“积”,可以推理一下卷积的来源:
跳出吃饭、消化这个例子,我们可以将吃饭看作不稳定输入,消化看作稳定输出,也就是f看作不稳定输入,g看作稳定输出,在图像处理里,f就是不稳定的图像输入,g就是稳定的卷积核。就像不同时间吃的不同的饭会影响消化是在看不稳定输入是如何影响稳定输出的一样,图像的卷积,其实也是在看多个像素点是如何影响一个像素点的(即卷积核中心的点)。
对于卷积核卷到的一组卷积核大小的像素,我们可以用f(x,y)表示他;卷积核用g(常数,常数)表示,最终的f(x,y)就等于:
可以发现,第一个(x-1,x-1)对应的是(1,1),而在图像上,这俩并不在一起,但是具有一个旋转(卷一下)180度的位置对应关系。将卷积核“卷”180度,最终乘法关系就与原图像的位置相对应,所以是先卷再积,此谓“卷积”。
卷积的本质:
沐神:重新考察全连接层
对于以前的权重矩阵,加入了宽度和高度,因此将二维扩展到4维,剩下的实在没研究明白,再说。
我理解的就是,将输入的图像的ij抹去,其实就是用ab大小去重复填充抹去的内容,被抹去的位置与存在的ab位置共享参数,但还是很模糊,不理解。
对全连接层使用平移不变性和局部性就可以得到卷积层:
行了,撑不住了,理解不了,先到这。