注意力通过将查询(外部问询)和(内部匹配)相结合,来实现对于的倾向性选择与汇聚

是否包含查询将注意力层与汇聚层相区别;

注意力汇聚

  • Attention Pooling Format | 注意力汇聚公式

其中, 是查询, 是键值对;最终结果注意力汇聚是 的加权平均, 之间的关系被建模为注意力权重(attention weight)

注意力权重就可以很容易地嵌入可学习的参数;

注意力评分函数

注意力评分函数

其实就是注意力汇聚公式中的注意力权重函数 的各种不同形式

加性注意力

缩放点积注意力

指向原始笔记的链接