KL 散度,也称为相对熵,是衡量两个概率分布 P 和 Q 之间差异的有效方法。其数学表达式如下: 离散型:DKL(P∣∣Q)=x∑P(x)log(Q(x)P(x)) 连续型:DKL(P∣∣Q)=∫P(x)log(Q(x)P(x))dx 这些方程比较了真实分布 P 与近似分布 Q 的相似性;在实际应用中可以将 KL 散度理解为:当使用为分布 Q 优化的编码系统来压缩来自分布 P 的数据时,所产生的额外编码成本。 KL 散度不满足交换律,也就是说 DKL(P∣∣Q)=DKL(Q∣∣P) KL 散度与信息熵的关系 如果将信息熵视作对一个概率分布的标量化评估,将交叉熵视作一个错误的评估,那么我们错得有多离谱呢?KL 散度就是一个最简单的度量方式:直接作差 DKL(P∣∣Q)=H(P,Q)−H(P)