一、基础模型
1、这种模型,句子长的话,权值参数多、不能记住上下文信息。
2、参数共享,并增加记忆功能。
3、公式化表示RNN
二、RNN维度解析
1、如图,假设x的维度[batch, seq_len, embedding_len]是[b, 80, 100],则在t时刻,Xt的形状是[b, 100], 因此,[b, 100] @[100, 64] + [b, 64]@[64, 64]=[b, 64]
就是有个降维过程,100的嵌入维度,降到了我们预设的64维。X @ Wxh + h @ Whh
2、如图。我们预设的隐层3维,输入形状就是[b, embedding_size],其中嵌入维度是4.kernel0是Wxh,第二个是Whh,第三个参数是偏执b
3、out维度和h维度一样。xt1就是h1