其实就是注意力汇聚公式中的注意力权重函数 的各种不同形式

加性注意力

缩放点积注意力