反向传播四个基本方程

反向传播四个基本方程定义 zjl kwjklakl 1 bjl 1 1 ajl zjl 1 2 C 12 j yj ajl 2 1 3 begin aligned z j l amp sum kw jk la k l 1 b j l amp 1 1 a j l amp sigma z j l amp 1 2 C amp frac 1 2 sum j y j a j l 2 amp 1 3 end aligned zjl ajl C k wjkl akl 1 b 反向传播四个公式

定义

z j l = ∑ k w j k l a k l − 1 + b j l ( 1.1 ) a j l = σ ( z j l ) ( 1.2 ) C = 1 2 ∑ j ( y j − a j l ) 2 ( 1.3 ) \begin{aligned} z_j^l&=\sum_kw_{jk}^la_k^{l-1}+b_j^l&(1.1)\\ a_j^l&=\sigma(z_j^l)&(1.2)\\ C&=\frac{1}{2}\sum_j(y_j-a_j^l)^2&(1.3) \end{aligned} zjlajlC=kwjklakl1+bjl=σ(zjl)=21j(yjajl)2(1.1)(1.2)(1.3)

其中

  • z j l z_j^l zjl为第 l l l层第 j j j个神经激活函数的带权输入
  • a j l a_j^l ajl为第 l l l层第 j j j个神经的激活输出, σ \sigma σ是激活函数
  • C C C为输出层二次代价函数

定义第 l l l层的第 j j j个神经的误差 δ j l \delta_j^l δjl为:

δ j l = ∂ C ∂ z j l (2) \delta_j^l=\frac{\partial C}{\partial z_j^l}\tag{2} δjl=zjlC(2)


BP基本方程

δ j L = ( a j L − y j ) σ ′ ( z j L ) ( 3.1 ) δ j l = σ ′ ( z j l ) ∑ k w k j l + 1 δ k l + 1 ( 3.2 ) ∂ C ∂ b j l = σ j l ( 3.3 ) ∂ C ∂ w j k l = a k l − 1 δ j l ( 3.4 ) \begin{aligned} &\delta_j^L&=&(a_j^L-y_j)\sigma'(z_j^L)&(3.1)\\ &\delta_j^l&=&\sigma'(z_j^l)\sum_kw_{kj}^{l+1}\delta_k^{l+1}&(3.2)\\ &\frac{\partial C}{\partial b_j^l}&=&\sigma_j^l&(3.3)\\ &\frac{\partial C}{\partial w_{jk}^l}&=&a_k^{l-1}\delta_j^l&(3.4) \end{aligned} δjLδjlbjlCwjklC====(ajLyj)σ(zjL)σ(zjl)kwkjl+1δkl+1σjlakl1δjl(3.1)(3.2)(3.3)(3.4)

其中

  • δ j L \delta_j^L δjL是输出层第 j j j个神经误差
  • δ j l \delta_j^l δjl是第 l l l层第 j j j个神经误差,式(3.2)实现了通过下一层的误差计算当前层误差
  • ∂ C ∂ b j l \frac{\partial C}{\partial b_j^l} bjlC是代价函数关于网络中第 l l l层第 j j j个偏置的改变率,式(3.3)说明了该改变率就是对应神经的误差
  • ∂ C ∂ w j k l \frac{\partial C}{\partial w_{jk}^l} wjklC是代价函数关于网络中连接第 l − 1 l-1 l1层第 k k k个神经与第 l l l层第 j j j个神经权重的改变率,式(3.4)表明其仅与该神经误差和第 l − 1 l-1 l1层第 k k k个神经的激活输出有关

方程推导

方程3.1

δ j L = ∂ C ∂ z j L = ∂ C ∂ a j L ∂ a j L ∂ z j L = ∂ C ∂ a j L ∂ [ σ ( z j L ) ] ∂ z j L = [ 1 2 ∑ k ( y k − a k L ) 2 ] ∂ a j L σ ′ ( z j L ) = ( a j L − y j ) σ ′ ( z j L ) \begin{aligned} \delta_j^L=&\frac{\partial C}{\partial z_j^L}\\=&\frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L}\\=&\frac{\partial C}{\partial a_j^L}\frac{\partial [\sigma(z_j^L)]}{\partial z_j^L}\\=&\frac{[\frac{1}{2}\sum_k(y_k-a_k^L)^2]}{\partial a_j^L}\sigma'(z_j^L)\\=&(a_j^L-y_j)\sigma'(z_j^L) \end{aligned} δjL=====zjLCajLCzjLajLajLCzjL[σ(zjL)]ajL[21k(ykakL)2]σ(zjL)(ajLyj)σ(zjL)

方程3.2

δ j l = ∂ C ∂ z j l = ∑ k ( ∂ C ∂ z k l + 1 ∂ z k l + 1 ∂ z j l ) = ∑ k ( δ k l + 1 ∂ z k l + 1 ∂ z j l ) \begin{aligned} \delta_j^l=&\frac{\partial C}{\partial z_j^l}\\=&\sum_k\left ( \frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial z_j^l}\right )\\=&\sum_k\left ( \delta_k^{l+1}\frac{\partial z_k^{l+1}}{\partial z_j^l}\right ) \end{aligned} δjl===zjlCk(zkl+1Czjlzkl+1)k(δkl+1zjlzkl+1)
因为
z k l + 1 = ∑ j ( w k j l + 1 a j l + b k l + 1 ) = ∑ j ( w k j l + 1 σ ( z j l ) + b k l + 1 ) \begin{aligned} z_k^{l+1}=&\sum_j(w_{kj}^{l+1}a_j^l+b_k^{l+1})\\=&\sum_j(w_{kj}^{l+1}\sigma(z_j^l)+b_k^{l+1}) \end{aligned} zkl+1==j(wkjl+1ajl+bkl+1)j(wkjl+1σ(zjl)+bkl+1)

∂ z k l + 1 ∂ z j l = w k j l + 1 σ ′ ( z j l ) \frac{\partial z_k^{l+1}}{\partial z_j^l}=w_{kj}^{l+1}\sigma'(z_j^l) zjlzkl+1=wkjl+1σ(zjl)
所以
δ j l = σ ′ ( z j l ) ∑ k ( δ k l + 1 w k j l + 1 ) \delta_j^l=\sigma'(z_j^l)\sum_k\left ( \delta_k^{l+1}w_{kj}^{l+1}\right ) δjl=σ(zjl)k(δkl+1wkjl+1)

方程3.3

∂ C ∂ b j l = ∂ C ∂ z j l ∂ z j l ∂ b j l = δ j l ∂ z j l ∂ b j l \begin{aligned} \frac{\partial C}{\partial b_j^l}=&\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l}\\=&\delta_j^l\frac{\partial z_j^l}{\partial b_j^l} \end{aligned} bjlC==zjlCbjlzjlδjlbjlzjl
因为
z j l = ∑ k ( w j k l a k l − 1 + b j l ) z_j^l=\sum_k\left (w_{jk}^la_k^{l-1}+b_j^l\right ) zjl=k(wjklakl1+bjl)

∂ z j l ∂ b j l = 1 \frac{\partial z_j^l}{\partial b_j^l}=1 bjlzjl=1
所以
∂ C ∂ b j l = δ j l \frac{\partial C}{\partial b_j^l}=\delta_j^l bjlC=δjl

方程3.4

∂ C ∂ w j k l = ∂ C ∂ z j l ∂ z j l ∂ w j k l = δ j l ∂ z j l ∂ w j k l = δ j l ∂ ( ∑ i ( w j i l a i l − 1 + b j l ) ) ∂ w j k l = δ j l a k l − 1 \begin{aligned} \frac{\partial C}{\partial w_{jk}^l}=&\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial w_{jk}^l}\\=&\delta_j^l\frac{\partial z_j^l}{\partial w_{jk}^l}\\=&\delta_j^l\frac{\partial (\sum_i(w_{ji}^la_i^{l-1}+b_j^l))}{\partial w_{jk}^l}\\=&\delta_j^la_k^{l-1} \end{aligned} wjklC====zjlCwjklzjlδjlwjklzjlδjlwjkl(i(wjilail1+bjl))δjlakl1

今天的文章 反向传播四个基本方程分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2024-12-21 21:57
下一篇 2024-12-21 21:51

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/92277.html