深度循环神经网络deep-RNN
目录
之前的RNN隐藏层只有一层,它的隐藏状态由上个时刻的隐藏状态决定,而深度网络是在纵向上进行了扩展,它的隐状态由上一时刻的自己和自己的上一层隐状态决定
函数依赖关系
最后,输出层的计算仅基于第$l$个隐藏层最终的隐状态: 其中,权重$\mathbf{W}_{hq} \in \mathbb{R}^{h \times q}$和偏置$\mathbf{b}_q \in \mathbb{R}^{1 \times q}$都是输出层的模型参数。
小结
- 在深度循环神经网络中,隐状态的信息被传递到当前层的下一时间步和下一层的当前时间步。
- 有许多不同风格的深度循环神经网络, 如长短期记忆网络、门控循环单元、或经典循环神经网络。 这些模型在深度学习框架的高级API中都有涵盖。
- 总体而言,深度循环神经网络需要大量的调参(如学习率和修剪) 来确保合适的收敛,模型的初始化也需要谨慎。