第六周
目录
学习时间
5月17日 到 6月24日
学习目标
- 继续学习RNN相关章节
- 学习 $\LaTeX$ 的使用
- 了解模型微调/双目视觉的基础理论
学习内容
RNN模型
学习总结
本周对传统的RNN模型进行了学习,代码方面感受到了python的弊端,语法糖太多影响了理解,所以将重心放在了大致的流程理解上。
GRU:
- 候选隐状态受 重置门$R_t$ 的影响,具体影响方式是决定了上一时间步的隐藏状态多大程度被保留,如果 $R_t=1$ 那么完全保留,$R_t=0$ 则完全舍弃
- 更新门 $Z_t$ 决定了 前一时间步和当前候选隐藏状态的权重,并加和得到当前的隐状态,如果$Z_t=1$ 那么完全完全使用前一个状态,$Z_t=0$则完全更新当前状态为 $\tilde{H}$
LSTM
- 遗忘、输入、输出门 使用 sigmoid 函数,将门的值映射到0到1之间
- 使用tanh函数将候选记忆单元 $\tilde{C}$ 映射到-1到1之间
- 由遗忘门和输入门分别控制前一时刻和候选记忆元的权重
- 注意对记忆元进行了tanh确保值域在-1到1之间,然后利用输出门控制当前记忆元多大程度决定隐状态以进行输出以及传递到下一时刻 。
deep RNN
在单层的基础上,纵向增加神经元,一个神经元的隐状态由本时刻上一层神经元的隐状态、上一时刻本层神经元决定
双向循环网络
具体的训练方式其实就是把序列正向、反向输入到模型,让模型不仅参考之前的信息,也参考之后的信息,所以这样的模型不能进行预测任务,适合知道上下文的任务,例如机器翻译
下周计划
- 学习注意力机制相关的内容