KL 散度,也称为相对熵,是衡量两个概率分布 P 和 Q 之间差异的有效方法。其数学表达式如下:

这些方程比较了真实分布 P 与近似分布 Q 的相似性;在实际应用中可以将 KL 散度理解为:当使用为分布 Q 优化的编码系统来压缩来自分布 P 的数据时,所产生的额外编码成本。

KL 散度不满足交换律,也就是说

KL 散度与信息熵的关系

如果将信息熵视作对一个概率分布的标量化评估,将交叉熵视作一个错误的评估,那么我们错得有多离谱呢?KL 散度就是一个最简单的度量方式:直接作差