就是那篇最著名的Nature在人工智能60周年刊登的标题为Deep Learning的论文,这论文有种书读百遍其意自现的奇妙效果,特此做点笔记。
显示最重要的这一部分吧。
(1) 图a展示了多层神经网络的功能:对输入空间进行整合,使得数据里由图中红色和蓝色表示的不同样本线性可分。上侧便是多层神经网络的简图,由两个输入节点、包含了两个隐藏节点的一个隐藏层和最终的一个输出节点组成。事实上除输入节点与输出节点之外的节点都是隐藏节点。通常的多层神经网络包含数十个或数百个这样的节点。
(2) 图b是基本的链式法则,会用于下文阐述的神经网络的原理。
(3) 图c是学习或测试过程中神经网络的前向传播过程(输入到输出)。每两层节点之间有许多带有权值的路径。对于每一层的每个节点,先运算得到上一层节点到自己的输出加权和(即每个指向自己的上层节点乘他们到自己路径的权值的和,zj=Σ(wij *xi), i∈H(n-1),其中n为当前隐藏层数,j为当前节点)。但还没完,由此得到的加权和仅仅是一个输入性质的数值zj,还需要经过一个非线性函数才能得到当前节点的输出yj。近几年常用的函数有校正线性单元ReLU(f(zj)=max(0,zj))。
(4) 图d是学习过程中神经网络的反馈调整过程(输出和正确结果比对,并反馈到每层调整路径权值)。首先是输出和正确结果的比对方式,输出层的每个节点的误差会用一个成本函数对输出的导数来表示。例如节点I的成本函数是0.5*(yI-tI)^2,那么它的误差就是yI-tI,其中yI是I节点的输出,tI是期望值。将此误差作为输出层的“输入”,向下一层输出则为,将这个“输入”对刚才下一层传来的输入求导的导数(如I节点的输出就是,∂E/∂zI,结合cd两图的I节点可以看懂)。而在隐藏层中,每一层的输入和前向过程类似,即上一层所有节点对自己的输出和它们到自己的路径权值的乘积之和。输出则和刚才输出层时一样,对输入进行一次求导即为该节点的输出(如k节点为∂E/∂zk)。同时,由图c可见,某两层的节点间,例如对j和k节点有zjk=wjk*yj,那么,经刚才的反馈得到了误差关于zk的导数∂E/∂zk后,就可以得到单条路径的权值误差率为yj*∂E/∂zk。由此便可对权值进行调整进行“学习”。
(关于成本函数:可参考https://blog.csdn.net/weixin_42338058/article/details/83989571)
(未完 近两日继续学习)