
1.

如何理解这里交叉熵的直观含义?如何推出XE(y,p)≥H(y)?(P81)
答:
(1)直观含义的理解:
比特数:比特是一种度量信息量的单位,它衡量了一个事件带来的不确定性减少的程度。
每个事件占用的比特数越少,说明编码的效率越高。熵(H(x))正是用来衡量在最优编码方案下,平均每个事件需要多少比特数。
事件发生的概率越小,它带来的信息量越大,因为它发生得越少,我们需要更多比特来描述这种“罕见”。
交叉熵则衡量当我们用错误的概率分布编码时,实际会消耗多少比特。
交叉熵衡量了在不使用真实分布(即错误假设了分布p)的情况下,需要额外消耗的平均比特数。
例子:
真实分布y:红球 50%,蓝球 50%,即y=[0.5,0.5]
错误分布p:红球 30%,蓝球 70%,即p=[0.3,0.7]
计算得:
H(y)=1bit
XE(y,p)=1.1255bit
这意味着:如果使用错误的分布p来编码每次的结果,平均每次需要 1.1255 个比特,每次额外浪费了 0.1255 个比特。
(2)如何证明:XE(y,p)≥H(y)?
<1>数学证明:

<2>从信息论角度:
设XE(y,p)-H(y)=KL散度,KL散度是用来衡量用错误分布p来描述真实分布y时,增加的信息量或编码的损失。
如果假设数据遵循分布p,但实际数据是由分布y生成的,我们会浪费多少信息?
当p=y时,使用了最优的编码方法,没有信息损失,此时XE(y,p)-H(y)=KL散度=0;
当p≠y时,使用了一个错误的分布
2.

这段话应该如何理解?这个公式应该如何理解?(P120)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/28367.html