VAE中重参数化技巧

谈起重参数化技巧，不得不提变分自编码器(VAE)；在VAE中，我们知道需要对编码器的输出 $\mu (x)$ 、 $\Sigma (x)$ 进行采样，从而可以将采样输入到编码器网络，能够得到输入样本 $x$ 的重构 $f(x)$ ，以这种方式对模型进行训练。而VAE并没有这么做，而是采取了另一种做法：从 $(0,I)$ 高斯分布中采样，然后和训练样本训练得到的 $\mu (x)$ 和 $\Sigma (x)$ ，做 $\mu (x) + \Sigma (x) \cdot N(0,I)$ 运算的结果输入到解码器网络（点乘符号表示每个元素位置上的相乘），便能得到我们样本x的重构 $f(x)$ ，这让我很困惑很久。下面开始介绍重参数化技巧，以两种情况：

概率分布：

直接从边缘概率分布中采样，即给定一个随机变量y，并且 $y \sim N(\mu ,\sigma ^{2})$ ，这里我们用 $\theta$ 表示这组参数，即： $\theta = \left \{ \mu ,\sigma ^{2} \right.\left. \right \}$ 。此时我们需要根据y所服从的高斯分布进行采样y，我们可以有根据y概率分布采样、Rejection Sampling 拒绝采样、MCMC采样、高维情况的Gibbs 采样等方法采样，这几种方法都是对y进行采样，而这里我们直接使用重参数化技巧不直接对y进行采样，后面将介绍为什么要这样做，具体做法：

先从 $z \sim N(0,I)$ 中采样得到 $z^{(i)}$ .

根据表达式 $y = \mu +\sigma *z$ ,以这种方式等价从 $y \sim N(\mu ,\sigma ^{2})$ 采样，用表该采样样本.

没错，过程就是这么简单，这里我们把采样得到的看成关于 $\mu ,\sigma ,z$ 的函数关系，即： $y = f(\mu ,\sigma ,z)$ ,下面我们用神经网络来表示该函数映射，因为我们知道神经网络能够逼近任何复杂的函数， $\mu ,\sigma$ 看成神经网络的参数。

L(y)作为关于y的损失函数，也即目标函数，那么训练过程中关于参数 $\theta = \left \{ \mu ,\sigma ^{2} \right.\left. \right \}$ 梯度的计算如下式：

$\frac{\bigtriangledown L(y)}{\bigtriangledown \theta } = \frac{\bigtriangledown L(y)}{\bigtriangledown y }\cdot \frac{\bigtriangledown y}{\bigtriangledown \theta }$

L是我们自定义的损失函数，关于y的偏导便是已知项，而 $y = \mu +\sigma *z$ 是前面给定的，也相当于已知。接下来介绍为什么这样做：

我们需要对y的采样转换成从 $z \sim N(0,I)$ 采样，可以解决模型训练过程梯度无法无法回传的问题，假设我们直接从 $y \sim N(\mu ,\sigma ^{2})$ 采样，采样的结果和参数 $\theta = \left \{ \mu ,\sigma ^{2} \right.\left. \right \}$ 的映射关系如何显示表达出来，如果无法表示出来，又谈何求梯度。在VAE中，该采样结果还要进解码器网络得到我们样本x的重构，关于建立的损失函数在BP算法训练过程中，梯度从后往前回传，采样的结果y关于 $\left \{ \mu (x),\sigma(x) \right.\left. \right \}$ 的显示映射不知道，梯度便无法拿到，也即无法继续向前回传。

条件概率分布：

直接从后验概率分布中采样与前面不同的是，这里y是x给定下的条件下概率 $p(y|x)\sim N(\mu ,\sigma ^{2})$ ，这里我们同样用 $\theta$ 表示这组参数，即： $\theta = \left \{ \mu ,\sigma ^{2} \right.\left. \right \}$ 。此时我们需要根据y的后验概率采样y：

具体做法：

先从 $z \sim N(0,I)$ 中采样得到 $z^{(i)}$ .

根据表达式 $y = \mu +\sigma *z$ ,我们知道 $\mu ,\sigma$ 都是和x相关，即： $\mu (x),\sigma(x) \right.\left$ ，于是前面表达式写成 $y = \mu(x) +\sigma(x) *z$ ,以这种方式等价从y的后验中采样，用表该采样样本.。

上述过程，在VAE中的表现形式：

接下来，我们来看看训练过程，采样的结果y关于参数 $\theta = \left \{ \mu ,\sigma ^{2} \right.\left. \right \}$ 的偏微分;这里我们假设损失函数定义为均方误差的形式， $L_{\theta }(y) = \sum_{i = 1}^{N}\parallel y-y^{(i)}\parallel ^{2}$

故： $\frac{\bigtriangledown L_{\theta }(y) }{\bigtriangledown \theta }=\frac{\bigtriangledown L_{\theta }(y) }{\bigtriangledown y}\cdot \frac{\bigtriangledown y}{\bigtriangledown \mu }\cdot \frac{\bigtriangledown \mu }{\bigtriangledown \theta } +\frac{\bigtriangledown L_{\theta }(y) }{\bigtriangledown y}\cdot \frac{\bigtriangledown y}{\bigtriangledown \sigma }\cdot \frac{\bigtriangledown \sigma }{\bigtriangledown \sigma }$

个人感觉，对 $p(y|x)\sim N(\mu (x),\sigma ^{2}(x))$ 的采样转换成从 $z \sim N(0,I)$ 采样，将采样的随机性转移到从标准正态分布中采样， $\theta = \left \{ \mu ,\sigma ^{2} \right.\left. \right \}$ 是关于样本x训练得到对应隐空间的分布特征，以 $y = \mu(x) +\sigma(x) *z$ 这种表达式采样的y，可以满足都在均值 $\mu$ 附近，因此该采样通过解码器生成的新样本和原样本比较像。

在学习过程中，将自己的收获记录下来，以便日后翻阅、查缺补漏。

今天的文章VAE中重参数化技巧分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/9063.html

VAE中重参数化技巧

概率分布：

条件概率分布：

相关推荐

发表回复