pix2pixHD:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs「建议收藏」

转载自：https://www.jianshu.com/p/eb29a264c71a

论文：pix2pixHD
代码：GitHub
这篇paper作为pix2pix(参见前一篇博客)的改进版本，如其名字一样，主要是可以产生高分辨率的图像。具体来说，作者的贡献主要在以下两个方面：

使用多尺度的生成器以及判别器等方式从而生成高分辨率图像。
使用了一种非常巧妙的方式，实现了对于同一个输入，产生不同的输出。并且实现了交互式的语义编辑方式

高分辨率图像生成

为了生成高分辨率图像，作者主要从三个层面做了改进：

模型结构
Loss设计
使用Instance-map的图像进行训练。

模型结构

pix2pixHD:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs「建议收藏」

pix2pixHD生成器结构

生成器由两部分组成，G1和G2，其中G2又被割裂成两个部分。G1和pix2pix的生成器没有差别，就是一个end2end的U-Net结构。G2的左半部分提取特征，并和G1的输出层的前一层特征进行相加融合信息，把融合后的信息送入G2的后半部分输出高分辨率图像。

判别器使用多尺度判别器，在三个不同的尺度上进行判别并对结果取平均。判别的三个尺度为：原图，原图的1/2降采样，原图的1/4降采样。显然，越粗糙的尺度感受野越大，越关注全局一致性。

生成器和判别器均使用多尺度结构实现高分辨率重建，思路和PGGAN类似，但实际做法差别比较大。

Loss设计

这里的Loss由三部分组成：

GAN loss：和pix2pix一样，使用PatchGAN。
Feature matching loss：将生成的样本和Ground truth分别送入判别器提取特征，然后对特征做Element-wise loss
Content loss：将生成的样本和Ground truth分别送入VGG16提取特征，然后对特征做Element-wise loss

pix2pixHD Loss

使用Feature matching loss和Content loss计算特征的loss，而不是计算生成样本和Ground truth的MSE，主要在于MSE会造成生成的图像过度平滑，缺乏细节。Feature matching loss和Content loss只保证内容一致，细节则由GAN去学习。

使用Instance-map的图像进行训练

pix2pix采用语义分割的结果进行训练，可是语义分割结果没有对同类物体进行区分，导致多个同一类物体排列在一起的时候出现模糊，这在街景图中尤为常见。在这里，作者使用个体分割（Instance-level segmention）的结果来进行训练，因为个体分割的结果提供了同一类物体的边界信息。具体做法如下：

根据个体分割的结果求出Boundary map
将Boundary map与输入的语义标签concatnate到一起作为输入
Boundary map求法很简单，直接遍历每一个像素，判断其4邻域像素所属语义类别信息，如果有不同，则置为1。下面是一个示例：

Boundary map

语义编辑

不同于pix2pix实现生成多样性的方法（使用Dropout），这里采用了一个非常巧妙的办法，即学习一个条件(Condition)作为条件GAN的输入，不同的输入条件就得到了不同的输出，从而实现了多样化的输出，而且还是可编辑的。具体做法如下：

语义编辑

首先训练一个编码器
利用编码器提取原始图片的特征，然后根据Labels信息进行Average pooling，得到特征（上图的Features）。这个Features的每一类像素的值都代表了这类标签的信息。
如果输入图像有足够的多，那么Features的每一类像素的值就代表了这类物体的先验分布。
对所有输入的训练图像通过编码器提取特征，然后进行K-means聚类，得到K个聚类中心，以K个聚类中心代表不同的颜色，纹理等信息。
实际生成图像时，除了输入语义标签信息，还要从K个聚类中心随机选择一个，即选择一个颜色/纹理风格

这个方法总的来说非常巧妙，通过学习数据的隐变量达到控制图像颜色纹理风格信息。

总结

作者主要的贡献在于：

提出了生成高分辨率图像的多尺度网络结构，包括生成器，判别器
提出了Feature loss和VGG loss提升图像的分辨率
通过学习隐变量达到控制图像颜色，纹理风格信息
通过Boundary map提升重叠物体的清晰度

可以看出，这篇paper除了第三点，都是针对性的解决高分辨率图像生成的问题的。可是本篇工作只是生成了高分辨率的图像，那对于视频呢？接下来会介绍Vid2Vid，这篇paper站在pix2pixHD的基础上，继续做了许多拓展，特别是针对视频前后帧不一致的问题做了许多优化。

今天的文章pix2pixHD:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs「建议收藏」分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/72299.html

pix2pixHD:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs「建议收藏」

高分辨率图像生成

模型结构

Loss设计

使用Instance-map的图像进行训练

语义编辑

总结

相关推荐

发表回复