吴恩达machine-learning-ex4练习题解析之代价函数

(本文原创于自己编辑的简书,时间2019.05.12 ,https://www.jianshu.com/p/57904b09f79e)

 

EX4主要是针对神经网络反向传播的实战,是非常重要的一课,所以花了我两天3夜地研究这道习题,还真是值得,收获满满。

        跟着ex4.pdf文档的脚步一步一步来:

1.首先1-3页都在表达初始化数据,和数据模型。

2.到了第五页,开始摩拳擦掌,实现第一段代码:神经网络代价函数

首先他给到这样的一个公式:

 

吴恩达machine-learning-ex4练习题解析之代价函数

代价函数(无lambda项)

吼!不要被这个公式吓到了。先不考虑lambda项,后面再慢慢深入。

第一个∑

首先把∑就当成是一次for循环,去掉一个∑就等于把for循环套在外面,中间弄个sumTemp作为临时累加项,直到end结束,sumTemp就是这个求和项了,

比如去掉第一个∑就等于

for i = 1:m

sumTemp = sumTemp + xx

end

之前我们说过只要有∑项的就可以直接用矩阵相乘来考虑不用for循环,但在这个公式稍微复杂一些,分解步骤逐个求解有利于理解。

yk的转换

首先要知道这里的y(i)不能直接采用样本的y,你要想想一次神经网络的输出有10维,但y为什么只有一个值呢?那是因为中间做过处理,输出的10维向量,[0 0 0 0 0 0 0 0 1 0],你没理由把这个给人家看,转成人看得懂的语言它就是9,所以直接的值就为单值。所以y(i)还要做一次神经网络算法看得懂的数据,一个十维向量,好在有个很方便的办法就是用==号:

numTemp = 1:numlabel; % 创造一个1:10的向量[1 ,2 ,3,4,5,6,7,8,9,10]

yk = (y(i) = =numTemp); %这个就会在numTemp里面逐个元素跟y对比,不对的打0,对的打1

这就得出y = 9时候,yk = [0,0,0,0,0,0,0,0,1,0];

第二个∑(K)

 

吴恩达machine-learning-ex4练习题解析之代价函数

代价函数

你的假设函数得出的结果Hypthesis  (10dimen) 有一个是对的,其他是错的,无论对错都按照公式和yk逐个逐个算了再说,当对的时候yk = 1的时候,左边项自然不等于0,右边=0,反之亦然,算到最后的结果求和,就是单个样本对应的代价。

所以乎

J1row = -yk* log(Hypothesis(i,:))' - (1 - yk) * log(1 - Hypothesis(i,:))';

sumTemp = sumTemp + J1row;

Hypothesis(i,:)

这个不用说了,最好是看看教学视频,

X_1 = [ones(m, 1),X];

A_layer1_bias = X_1;

A_2 = sigmoid(X_1 * Theta1'); %5000*401 * 401 * 25 --> 5000*25

A_21 = [ones(m, 1),A_2]; % 5000 * 26

A_layer2_bias = A_21; %

Z_layer2 = A_layer2_bias * Theta2';

Hypothesis = sigmoid(Z_layer2); %5000X10

A_layer3 = Hypothesis;

Z_layer3 = A_layer3;

命名有点奇怪,下次不这样命名了,简洁为主

我这里的Hypothesis虽然没有算错,但有个地方命名跟教程上有点儿出入,导致后面计算梯度的时候会出错,这里看你能找到没?

全套代码如下

X_1 = [ones(m, 1),X];

A_layer1_bias = X_1;

A_2 = sigmoid(X_1 * Theta1'); %5000*401 * 401 * 25 --> 5000*25

A_21 = [ones(m, 1),A_2]; % 5000 * 26

A_layer2_bias = A_21; %

Z_layer2 = A_layer2_bias * Theta2';

Hypothesis = sigmoid(Z_layer2); %5000X10

A_layer3 = Hypothesis;

Z_layer3 = A_layer3;

numTemp = 1:num_labels;

sumTemp = 0;

for i = 1:m

yk= (numTemp == y(i)); %1x10

% Hypothesis 5000X10

J1row = -yk* log(Hypothesis(i,:))' - (1 - yk) * log(1 - Hypothesis(i,:))'; %this is one of example,1row

sumTemp = sumTemp + J1row;

end

J_noreg = sumTemp /m;

有人说这不是扯淡吗,Theta的初始化时随机的,Hypothesis算出来也就是一堆错误的值,那得出的代价有什么参考意义呢?诶,这里的意义就大了,这也是神经网络算法的魅力所在——就算拿个代价相差太大的J他都可以慢慢调整到对为止,直到代价越来越少,接近“真相”这也是下半部分要说的计算ThetaGrad值。

上一篇:最优化算法最速下降法、牛顿法、拟牛顿法 Python实现


下一篇:P2802 回家 (DFS+剪枝)