门控循环单元GRU学习笔记
比LSTM更简单的结构
只记住相关的观察需要:
- 更新门 -- 能关注的机制
- 重置门 -- 能遗忘的机制
门,是和隐藏状态同样长度的向量。
下面公式中的几个参数:
- \(H_{t-1}\)是隐藏状态;
- \(X_t\)是输入;
- \(\sigma\)是有激活函数sigmod的fc层,输出范围[0,1]
- W是需要更新的权重矩阵
- b是偏置项
\(R_t\)是重置门(能遗忘的机制):\(R_t=\sigma(X_tW_{xr} + H_{t-1}W_{hr}+b_r)\)
\(Z_t\)是更新门(能关注的机制):\(Z_t=\sigma(X_tW_{xz} + H_{t-1}W_{hz}+b_z)\)
\(\widetilde{H}_t\)是候选隐藏门:\(tanh(X_tW_{xh}+(R_t⊙H_{t-1})W_{hh}+b_h)\)
\(H_t是隐状态:H_t=Z_t⊙H_{t-1}+(1-Z_t)⊙\widetilde{H}_t\)