kl散度的取值范围_散度的概念「建议收藏」

编程小号 • 2024-04-04 11:30 • 未分类

1. KL散度

$KL$ 散度又称为相对熵，信息散度，信息增益。 $KL$ 散度是是两个概率分布P和Q 差别的非对称性的度量。 $KL$ 散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

定义如下：

D K L (P / / Q) = - \sum x \in X P (x) l o g 1 P ( x ) + \sum x \in X P (x) l o g 1 Q ( x )

$D_{KL} (P//Q)=-\sum_{x\in X} P(x)log {\frac{1}{P(x)}} + \sum_{x\in X} P(x)log {\frac{1}{Q(x)}}$

因为对数函数是凸函数，所以

$KL$ 散度的值为非负数。

有时会将 $KL$ 散度称为 $KL$ 距离，但它并不满足距离的性质：

1. KL散度不是对称的: $KL(A, B)$ $\neq$ $KL(B, A)$

2. KL散度不满足三角不等式: $KL(A, B)$ $>$ $KL(A, C) + KL(C, B)$

2. JS散度(Jensen-Shannon)

$JS$ 散度度量了两个概率分布的相似度，基于 $KL$ 散度的变体，解决了KL散度非对称的问题。一般地， $JS$ 散度是对称的，其取值是0到1之间。定义如下：

$KL$ 散度和 $JS$ 散度度量的时候有一个问题：

如果两个分配P,Q离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，而JS散度值是一个常数。这在学习算法中是比较致命的，这就意味这这一点的梯度为0。梯度消失了。

3. Wasserstein距离

$Wasserstein$ 距离度量两个概率分布之间的距离，定义如下：

$\Pi (P_1,P_2)$ 是 $P_1$ 和 $P_2$ 分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ，可以从中采样 $(x,y)∼\gamma$ 得到一个样本x和y，并计算出这对样本的距离||x−y||，所以可以计算该联合分布 $\gamma$ 下，样本对距离的期望值 $E(x,y)∼γ[||x−y||]$ 。在所有可能的联合分布中能够对这个期望值取到的下界 $inf_\gamma$ ∼ $\Pi (P_1,P_2)$ E(x,y) $∼\gamma[||x−y||]$ 就是Wasserstein距离。

直观上可以把 $E(x,y)∼\gamma[||x−y||]$ 理解为在 $\gamma$ 这个路径规划下把土堆P1挪到土堆P2所需要的消耗。而 $Wasserstein$ 距离就是在最优路径规划下的最小消耗。所以 $Wesserstein$ 距离又叫Earth-Mover距离。

Wessertein距离相比KL散度和JS散度的优势在于：

即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。而JS散度在此情况下是常量，KL散度可能无意义。

转载自：
《KL散度、JS散度、Wasserstein距离》

今天的文章kl散度的取值范围_散度的概念「建议收藏」分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/77749.html

kl散度的取值范围_散度的概念「建议收藏」

1. KL散度

2. KL散度不满足三角不等式: KL(A,B) K L ( A , B ) KL(A, B) > > > KL(A,C)+KL(C,B) K L ( A , C ) + K L ( C , B ) KL(A, C) + KL(C, B)

2. JS散度(Jensen-Shannon)

如果两个分配P,Q离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，而JS散度值是一个常数。这在学习算法中是比较致命的，这就意味这这一点的梯度为0。梯度消失了。

3. Wasserstein距离

相关推荐

发表回复

2. KL散度不满足三角不等式: $KL(A, B)$ $>$ $KL(A, C) + KL(C, B)$