散度本质上是一种数学操作,用于衡量两个概率分布的差异;

KL 散度

KL散度

KL 散度,也称为相对熵,是衡量两个概率分布 P 和 Q 之间差异的有效方法。其数学表达式如下:

这些方程比较了真实分布 P 与近似分布 Q 的相似性;在实际应用中可以将 KL 散度理解为:当使用为分布 Q 优化的编码系统来压缩来自分布 P 的数据时,所产生的额外编码成本。

KL 散度不满足交换律,也就是说

KL 散度与信息熵的关系

如果将信息熵视作对一个概率分布的标量化评估,将交叉熵视作一个错误的评估,那么我们错得有多离谱呢?KL 散度就是一个最简单的度量方式:直接作差

指向原始笔记的链接

JS 散度

JS散度

Jensen-Shannon 散度(JS 散度)是一种对称性的散度度量,也是用来量化两个概率分布之间的相似性;其并没有将任何一个分布作为标准分布,而是将他们的混合分布作为标准分布:

进而得到 JS 散度的公式:

本质上是对于 KL 散度的对称性改进,适合于某些无偏估计场景;KL散度

指向原始笔记的链接

Renyi散度

指向原始笔记的链接