长短期记忆网络 LSTM
90年代发明的网络,其实挺复杂的,就现在其实大家也没有搞明白为什么要这么设计。
LSTM虽然是长得挺奇怪的,但是使用效果还是不错的,尽管是90年年代发明的网络。
LSTM其实要实现的效果和GRU是差不多的,只不过设计相对复杂一些。
GRU可以认为是对LSTM的一个简化?
但是目前来说,其实GRU和LSTM的性能表现是差不多的,说以其实选择哪个都是可以的。
代码
QA
- 为什么要对输出取tanh?
把输出的值控制在[0,1],有一个很重要的作用就是防止梯度爆炸。
- 如何计算一个模型占用的显存?以及一个batch占用的显存?
这个东西是很难的,这个要取决于你的框架优化的有多好。一般是很难准确估计的,要实际跑一下才能知道。