注意力通过将查询(外部问询)和键(内部匹配)相结合,来实现对于值的倾向性选择与汇聚;
是否包含查询将注意力层与汇聚层相区别;
注意力汇聚
- Attention Pooling Format | 注意力汇聚公式
其中, 是查询, 是键值对;最终结果注意力汇聚是 的加权平均, 与 之间的关系被建模为注意力权重(attention weight) ;
注意力权重就可以很容易地嵌入可学习的参数;
注意力评分函数
注意力评分函数
其实就是注意力汇聚公式中的注意力权重函数 的各种不同形式
加性注意力
缩放点积注意力
指向原始笔记的链接