GRU(Gated Recurrent Unit)门控循环单元结构

GRU(Gated Recurrent Unit)也称门控循环单元结构

nn.GRU类初始化主要参数解释:

    input_size: 输入张量x中特征维度的大小.
    hidden_size: 隐层张量h中特征维度的大小.
    num_layers: 隐含层的数量.
    nonlinearity: 激活函数的选择, 默认是tanh.
    bidirectional: 是否选择使用双向LSTM, 如果为True, 则使用; 默认不使用.

nn.GRU类实例化对象主要参数解释:

    input: 输入张量x.
    h0: 初始化的隐层张量h.

代码示例:

import torch
import torch.nn as nn
rnn = nn.GRU(5,6,2) #数据向量维数5, 隐藏元维度6, 2个LSTM层串联(如果是1,可以省略,默认为1)
input = torch.randn(1,3,5) # 序列长度seq_len=1, batch_size=3, 数据向量维数=5
h0 = torch.randn(2,3,6) # 2个LSTM层,batch_size=3,隐藏元维度6
output, hn = rnn(input,h0)
print(output)
print(output.type())
print(output.shape)
print(hn)

代码运行结果

tensor([[[-0.0307,  0.0718, -0.2517,  0.0565,  0.0613,  0.5001],
         [-0.6239,  1.0618,  0.7506,  0.3475, -0.8536, -0.8410],
         [-0.0949,  0.5698,  0.4491, -0.0122,  0.5413, -0.2383]]],
       grad_fn=<StackBackward0>)
torch.FloatTensor
torch.Size([1, 3, 6])
tensor([[[-0.5540,  0.3067, -1.2936, -0.3727, -0.4141,  0.2967],
         [-1.2364,  0.7779,  0.4355, -1.2783, -0.0382,  0.5875],
         [ 1.4438,  1.2898, -0.3959, -0.5599, -1.1615,  0.3538]],

        [[-0.0307,  0.0718, -0.2517,  0.0565,  0.0613,  0.5001],
         [-0.6239,  1.0618,  0.7506,  0.3475, -0.8536, -0.8410],
         [-0.0949,  0.5698,  0.4491, -0.0122,  0.5413, -0.2383]]],
       grad_fn=<StackBackward0>)

GRU的优势:

    GRU和LSTM作用相同, 在捕捉长序列语义关联时, 能有效抑制梯度消失或爆炸, 效果都优于传统RNN且计算复杂度相比LSTM要小.

GRU的缺点:

    GRU仍然不能完全解决梯度消失问题, 同时其作用RNN的变体, 有着RNN结构本身的一大弊端, 即不可并行计算, 这在数据量和模型体量逐步增大的未来, 是RNN发展的关键瓶颈.
上一篇:01_hello小案例


下一篇:day5