评价神经网络好坏的一个重要一句就是: 以最少的代价使神经网络获得最好的准确率。
关于特征:特征就是对己而言,特征是某些突出性质的表现,于他而言,特征是区分事物的关键,所以,当我们要对事物进行类或者识别,我们实际上就是提取‘特征’,通过特征的表现进行判断。
特征选择(feature selection)::特征选择的本质是对一个给定特征子集的优良性通过一个特定的评价标准进行衡量,通过特征选择,原始特征集合中的冗余特征和不相关特征被除去,而有用的特征被保留。
关于模型训练:训练分类模型实质上是在做极大似然估计。损失函数是啥?是交叉熵(cross-entropy),但为啥用交叉熵和极大似然估计有关系呢,把Non-negative loglikelihood,softmax搞明白,理解分类会更直观一点。
关于卷积神经网络:
卷积层负责提取特征,采样层(池化层pooling)负责特征选择,全连接层负责分类。
卷积核放在神经网络里就代表对应的权重(weight),卷积核和图像进行点乘(dot product),就代表卷积核里的权重单独对相应位置的Pixel进行作用。这里强调一下点乘,虽说我们称之为卷积,实际上是位置一一对应的点乘,不是真正意义的卷积。比如图像为位置(1,1)乘以卷积核位置(1,1),仔细观察右上角你就会发现了。 至于为什么要把点乘完所有的结果加起来,实际上就是把所有作用效果叠加起来,就好比前面提到的RGB图片,红绿蓝分量叠加起来产生了一张真正意义上的美女图。
单卷积层提取的是局部特征,但是到高层卷积就能提取到全局特征,所以CNN一般需要累积到多层。
一般认为卷积提取的是local feature ,cnn 使用时经常会堆叠多层,从底层往上看,底层卷积负责提取不同位置区域的信息,越网上层的卷积相当于是对底层卷积得到的信息进行组合并提取更深层次的信息。理论上只要底层和上层的卷积配合得当是可以在上层提取到global feature的,但大多数情况下上层得到的是有损不全的。
卷积输出的特征图(feature map),除了特征值本身外,还包含相对位置信息,比如人脸检测,眼睛,鼻子,嘴巴都是从上到下排列的,那么提取出的特征值也是按照这个肾虚排列的。
关于卷积核:卷积核越大,感受野越大,提取的特征就越偏向于全局,卷积核越小感受野就小,就偏向于局部,多个小的卷积核累加,可以提升感受野,也就是扩大局部特征的提取,所以现在的卷积神经网络都采用小的卷积核一层一层叠加。