2025年sigmod激活函数的导数(sigmoid激活函数的倒数是())

sigmod激活函数的导数(sigmoid激活函数的倒数是())1 如何理解这里交叉熵的直观含义 如何推出 XE y p H y P81 答 1 直观含义的理解 比特数 比特是一种度量信息量的单位 它衡量了一个事件带来的 不确定性减少的程度 每个事件占用的 比特数 越少 说明编码的效率越高 熵 H x 正是用来衡量 在最优编码方案下 平均每个事件需要多少比特数 事件发生的 概率越小 它带来的信息量越大 因为它发生得越少 我们需要更多比特来描述这种 罕见 交叉熵 则衡量当我们用错误的概率分布编码时 实际会消耗多少比特



1.

如何理解这里交叉熵的直观含义?如何推出XE(y,p)≥H(y)?(P81)

答:

(1)直观含义的理解:

比特数:比特是一种度量信息量的单位,它衡量了一个事件带来的不确定性减少的程度

每个事件占用的比特数越少,说明编码的效率越高。熵(H(x))正是用来衡量在最优编码方案下,平均每个事件需要多少比特数。

事件发生的概率越小,它带来的信息量越大,因为它发生得越少,我们需要更多比特来描述这种“罕见”。

交叉熵则衡量当我们用错误的概率分布编码时,实际会消耗多少比特。

交叉熵衡量了在不使用真实分布(即错误假设了分布p)的情况下,需要额外消耗的平均比特数

例子:

真实分布y:红球 50%,蓝球 50%,即y=[0.5,0.5]

错误分布p:红球 30%,蓝球 70%,即p=[0.3,0.7]

计算得:

H(y)=1bit

XE(y,p)=1.1255bit

这意味着:如果使用错误的分布p来编码每次的结果,平均每次需要 1.1255 个比特,每次额外浪费了 0.1255 个比特

(2)如何证明:XE(y,p)≥H(y)?

<1>数学证明:

<2>从信息论角度:

设XE(y,p)-H(y)=KL散度,KL散度是用来衡量用错误分布p来描述真实分布y时,增加的信息量或编码的损失。

如果假设数据遵循分布p,但实际数据是由分布y生成的,我们会浪费多少信息

当p=y时,使用了最优的编码方法,没有信息损失,此时XE(y,p)-H(y)=KL散度=0;

当p≠y时,使用了一个错误的分布 p p p,会导致编码效率变差,因此会浪费额外的信息或比特,KL散度大于 0。


2.

这段话应该如何理解?这个公式应该如何理解?(P120)

今天的文章 2025年sigmod激活函数的导数(sigmoid激活函数的倒数是())分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2025-12-08 22:21
下一篇 2025-12-08 22:33

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/28367.html