1、正向传播
计算图(红色部分不属于时间步t):
公式:
2、反向传播
GRU反向传播的计算图(红色部分不属于时间步t):
根据计算图,从上往下推导反向传播的公式。
对于输出激活函数是softmax,损失函数是交叉熵的情况,常用的公式是:
(1)
我在RNN反向传播的推导中证明了这个公式,这里就不证明了。
根据
我们可以进而得到:
(2)
(3)
(4)
只需要利用,以上公式和RNN的情况是一模一样的,也不多解释了。
正如计算图所显示的那样,的导数总共和5项相关,即:
(5.a)
考虑正向传播的以下公式:
得到:
(其中)
(其中)
(其中)