注意力评分函数
目录
用数学语言描述,假设有一个查询 $\mathbf{q} \in \mathbb{R}^q$和 $m$个“键-值”对 $(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m)$, 其中$\mathbf{k}_i \in \mathbb{R}^k$,$\mathbf{v}_i \in \mathbb{R}^v$。 注意力汇聚函数$f$就被表示成值的加权和:
其中查询$\mathbf{q}$和键$\mathbf{k}_i$的注意力权重(标量) 是通过注意力评分函数$a$将两个向量映射成标量, 再经过softmax运算得到的: