GRU反向传播公式推导

1、正向传播

计算图(红色部分不属于时间步t):

GRU反向传播公式推导

公式:

GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导  

2、反向传播

GRU反向传播的计算图(红色部分不属于时间步t):

GRU反向传播公式推导

根据计算图,从上往下推导反向传播的公式。

对于输出激活函数是softmax,损失函数是交叉熵的情况,常用的公式是:

GRU反向传播公式推导                                                                                                (1)

我在RNN反向传播的推导中证明了这个公式,这里就不证明了。

根据

GRU反向传播公式推导

我们可以进而得到:

GRU反向传播公式推导                                                    (2)

GRU反向传播公式推导                   (3)

GRU反向传播公式推导                                                                                         (4)

 只需要利用GRU反向传播公式推导,以上公式和RNN的情况是一模一样的,也不多解释了。

 正如计算图所显示的那样,GRU反向传播公式推导的导数总共和5项相关,即:

GRU反向传播公式推导                                                                                                        (5.a)

考虑正向传播的以下公式:

GRU反向传播公式推导

 GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导

得到:

GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导        (其中GRU反向传播公式推导

 GRU反向传播公式推导

GRU反向传播公式推导        (其中GRU反向传播公式推导

 GRU反向传播公式推导

GRU反向传播公式推导

GRU反向传播公式推导        (其中GRU反向传播公式推导

 

上一篇:一些采坑的教训


下一篇:Deep Speaker: an End-to-End Neural Speaker Embedding System