深入理解深度学习分割网络Ｕnet——U-Net: Convolutional Networks for Biomedical Image Segmentation

##背景

	Ｍask = Function(I)

什么是图像分割问题呢？简单的来讲就是给一张图像，检测是用框出框出物体，而图像分割分出一个物体的准确轮廓。也这样考虑，给出一张图像Ｉ，这个问题就是求一个函数，从I映射到Mask。至于怎么求这个函数有多种方法。我们可以看到这个图，左边是给出图像，可以看到人和摩托车，右边是分割结果。
求这个函数有很多方法，但是第一次将深度学习结合起来的是这篇文章全卷积网络(FCN)，利用深度学习求这个函数。在此之前深度学习一般用在分类和检测问题上。由于用到CNN，所以最后提取的特征的尺度是变小的。和我们要求的函数不一样，我们要求的函数是输入多大，输出有多大。为了让CNN提取出来的尺度能到原图大小，FCN网络利用上采样和反卷积到原图像大小。然后做像素级的分类。可以看图二，输入原图，经过VGG16网络，得到特征map,然后将特征map上采样回去。再将预测结果和ground truth每个像素一一对应分类，做像素级别分类。也就是说将分割问题变成分类问题，而分类问题正好是深度学习的强项。如果只将特征map直接上采样或者反卷积，明显会丢失很多信息。

3. FCN采取解决方法是将pool4、pool3、和特征map融合起来，由于pool3、pool4、特征map大小尺寸是不一样的，所以融合应该前上采样到同一尺寸。这里的融合是拼接在一起，不是对应元素相加。

4. FCN是深度学习在图像分割的开山之作，FCN优点是实现端到端分割等，缺点是分割结果细节不够好，可以看到图四，FCN8s是上面讲的pool4、pool3和特征map融合，FCN16s是pool4和特征map融合，FCN32s是只有特征map，得出结果都是细节不够好，具体可以看自行车。由于网络中只有卷积没有全连接，所以这个网络又叫全卷积网络。

##Unet网络结构

很多分割网络都是基于FCNs做改进，包括Unet。Unet包括两部分，可以看右图，第一部分，特征提取，VGG类似。第二部分上采样部分。由于网络结构像U型，所以叫Unet网络。
1. 特征提取部分，每经过一个池化层就一个尺度，包括原图尺度一共有5个尺度。
2. 上采样部分，每上采样一次，就和特征提取部分对应的通道数相同尺度融合，但是融合之前要将其crop。这里的融合也是拼接。
  个人认为改进FCN之处有：
  1. 多尺度
  2. 适合超大图像分割，适合医学图像分割
Ｕnet——输入输出

医学图像是一般相当大，但是分割时候不可能将原图太小输入网络，所以必须切成一张一张的小patch，在切成小patch的时候，Unet由于网络结构原因适合有overlap的切图，可以看图，红框是要分割区域，但是在切图时要包含周围区域，overlap另一个重要原因是周围overlap部分可以为分割区域边缘部分提供文理等信息。可以看黄框的边缘，分割结果并没有受到切成小patch而造成分割情况不好。
３．Unet——反向传播
Unet反向传播过程，大家都知道卷积层和池化层都能反向传播，Unet上采样部分可以用上采样或反卷积，那反卷积和上采样可以怎么反向传播的呢？那什么是反卷积呢？先来讲下卷积的过程
```
 				Y = Matrix_1(Filter)* Matrix_2(Image)
```

Matrix_1和Matrix_2分别是将卷积核和图像转成矩阵函数。也就说给一个输入X，利用矩阵乘法能得到卷积后输出Y。

								Ｙ=C*X

所以卷积可以分解成两个矩阵相乘。很显然，卷积反向传播就是C的转置相乘。举个例子：

							Y=[1,2]*[X，x_1]T

Ｙ对x求导，dy/dx=[1,2]^T。

反卷积就是转置卷积，也是一种卷积，可以看到图７，这个就是转置卷积，由小尺寸到大尺寸的过程。也就是说反卷积也可以表示为两个矩阵乘积，很显然转置卷积的反向传播就是也是可进行的。所以说整体是Unet是可以反向传播的。
３．Unet——与其他结构比较之FPN

这是FPN检测网络，可以看到红框，如果将红框到过来可以发现，FPN部分结构和Unet相似之处。从而说明Ｕnet网络结构是基于多尺度的。