散度本质上是一种数学操作,用于衡量两个概率分布的差异;
KL 散度
KL散度
KL 散度,也称为相对熵,是衡量两个概率分布 P 和 Q 之间差异的有效方法。其数学表达式如下:
这些方程比较了真实分布 P 与近似分布 Q 的相似性;在实际应用中可以将 KL 散度理解为:当使用为分布 Q 优化的编码系统来压缩来自分布 P 的数据时,所产生的额外编码成本。
KL 散度不满足交换律,也就是说
KL 散度与信息熵的关系
如果将信息熵视作对一个概率分布的标量化评估,将交叉熵视作一个错误的评估,那么我们错得有多离谱呢?KL 散度就是一个最简单的度量方式:直接作差
指向原始笔记的链接
JS 散度
JS散度
Jensen-Shannon 散度(JS 散度)是一种对称性的散度度量,也是用来量化两个概率分布之间的相似性;其并没有将任何一个分布作为标准分布,而是将他们的混合分布作为标准分布:
进而得到 JS 散度的公式:
本质上是对于 KL 散度的对称性改进,适合于某些无偏估计场景;KL散度
指向原始笔记的链接
Renyi散度
指向原始笔记的链接