AlexNet原文说明「建议收藏」

AlexNet原文说明「建议收藏」AlexNet相对于之前的卷积神经网络,它使用了最大池化层,ReLU,softmax,GPU1.先说明下ReLU:标准的方法来模拟神经元的输出f的函数是用f(x)=tanh(x)或者另外一个指数函数,但是对于梯度下降的训练时间来说,这些饱和的非线性要比不饱和非线性f(x)=max(0,x)慢得多。在相同条件下使用ReLU训练的深度神经网络要比tanh快得多。在多样GPUs的训练…

AlexNet相对于之前的卷积神经网络,它使用了最大池化层,ReLU, softmax, GPU

1.先说明下ReLU:标准的方法来模拟神经元的输出f的函数是用f(x) = tanh(x)或者另外一个指数函数,但是对于梯度下降的训练时间来说,这些饱和的非线性要比不饱和非线性f(x) = max(0,x)慢得多。在相同条件下使用ReLU训练的深度神经网络要比tanh快得多

在多样GPUs的训练:一个单GTX580GPU只有3GB的内存,这样会限制能够网络可以训练的值。实践证明1200万个训练样本已经能够用在一个GPU上了。因此,我们用了两个GPU。现在的GPU可以平行使用,因为它可以直接从另一个内存那里读或者写。这样的机制使得我们可以在每个GPU那里方一半的核(或者神经元),再加上一个技巧:GPU只在特定的层交流。这就意味着,第3层的核的确定全都来自第二层。然而,在相同GPU的第4层的核的确定只来自于第3层的内核映射。选择连接模式对于交互来说是个问题,但是允许我们精确地优化交流的数量直到达到了计算数量的可接受 分数。

池化层:如果要使得结果更加准确,我们可以把一个池化层相乘是按s像素分离开来的池化层单元之一。如果s=z,我们获得传统意义上的池化层;如果我们设置s<z,我们获得重叠池化层。这个是用来贯穿整个神经网络的,设置s= 2, z=3。这样设置能够使top-1和top-5分别降低错误率百分之0.4和百分之0.3相对于在其他条件相同时设置s=2, z=2。我们大体发现用重叠池化层在训练模型的过程中会稍微有点难拟合。

2.整体构架:整体网络包括8层;前5层是卷积层,后3层是全连接层。

AlexNet原文说明「建议收藏」

第2,3,5层卷积层在相同的GPU中只连接前一层的那些核映射。第3层的卷积核连接第2层的所有核。全连接的神经元与前一层的所有神经元连接。第1和2卷积层后面连接激励层。之后连接最大池化层,第5层卷积层也是这样。ReLU非线性应用在每个卷积和全连接层的输出。

第1个卷积滤波器的核输入的是224*224*3的,有96个核,尺寸是11*11*3的,步长是4个像素。第2个卷积层的输入是第1个卷积层的输出,有256个核,尺寸是5*5*48。第三、四、五个卷积层相连没有经过任何池化层或激励层。第三个卷积层有384个核,尺寸是3*3*256,连接到第二个卷积层。第4个卷积层有384个核,尺寸是3*3*192,第五个卷积层有256个核,尺寸是3*3*192。全连接层有4096个神经元。

3.降低过拟合

整体网络构架有6千万个参数。虽然ILSVRC的1000个分类让每个训练样本限制在10位,但是结果证明如果不考虑过拟合的话,学习如此多的参数将会很麻烦。对抗过拟合我们使用了两种方法:

(1)增大数据量

用在图像数据上最早和最普遍的方法来降低过拟合的是巧妙的用标签保存转换来扩大数据量。在数据扩大上我们使用了两种独特的方式,它们计算少,不占内存。其中,图像的转换是在CPU上用Python生成的,先前批次的图像是在GPU上进行的。所数据扩大在效果上没有增加计算。

       第一种方法是生成图像翻译和水平映射。我们从256*256个图像上摘取224*224个补丁并用这些补丁来训练我们的网络。因子2048会增加我们训练的尺寸,虽然图像样本结果是相互依存的。如果没有这一步,我们的网络实质性的会被过拟合,这样迫使我们用更小的网络。在测试时,网络先摘取224*224个补丁和他们的水平映射和预测,之后平均用网络在10层的softmax行程的预测。

       第二种扩大形成了在训练集的RGB通道的强度的选择。特别的,我们通过ImageNet训练集将PCA执行在RGB像素值上。我们用均值为0偏差为0.1的高斯函数的对应的随机特征值用了一个大比例,增加了每个训练图像的主成分的多样性。因此对于每个RGB图像像素Ixy我们增加了以下数量:AlexNet原文说明「建议收藏」其中p和入是RGB像素3*3像素矩阵的特征向量和特征值。分别的,权值是之前提到的随机变量,每个权值只用在特征的训练图像的所有像素上除非图像又被训练了。这一步获得了自然图像的重要属性,也就是说,这个物体的识别对于光照的颜色和强度是具有不变性的。这一步把top-1错误降低了超过百分之一。

(2)结合许多不同模型的预测是一个非常有用的降低测试错误的方法,但是腿与大型神经网络来说变得很贵,它需要花上一些天来训练。一个有效的新版本的结合模型只花两轮训练。近来引进的这个技术,称为“dropout”,包括每个隐含神经元的输出设置为0,概率为0.5。这种方式下的神经元不会对前传有影响也不会参与后向反馈。所以每次输入都提出,神经网络形成不同的框架,但是所有的框架都分享权重。这样降低了复杂的相互适应的神经元,有一个神经元不依赖其他神经元的现状。因此,迫使学习更多用对许多不同随机神经元的集合有用的鲁棒性特征的学习。在测试时,我们用了所有的神经元但是将它们的输出乘0.5,这对于用“drop-out”网络的预测分布的几何平均值来说是合理的。没有“drop-out”,神经网络将会被过拟合。“Drop-out”大约是收敛所需迭代次数的两倍。

4.具体学习

我们将128个样本用随机梯度下降法来训练我们的模型,势度为0.9,权值衰减为0.0005.我们发现销量的权值对于模型的学习很重要。也就是说,权值的减少不只是一个规范,它还降低了模型的训练误差。更新后的权重w是:

AlexNet原文说明「建议收藏」

这里i是一个迭代索引,v是势头改变量。我们用一个标准偏差为0.01的0均值的高斯分布来初始化每一层的权重。我们在我们初在第二、四、五层卷积层初始化神经元差值,同样也在全连接隐含层这样做,用常数1。这个初始化加速了用ReLU来提供输入的早期学习阶段。剩下的层我们用常数0来初始化神经元偏差。

我们对所有层采用平等的学习率,这些层在培训时我们采用手动调整的方式。我们遵循的启发式方法是,当验证错误率不再随当前学习率而提高时,将学习率除以10。学习率初始化在0.01在终止前降低三次。我们通过训练1200万幅图集来训练神经网络大概90次,用了两个NVIDIA GTX 580 3GB GPU,花了5到6天时间。

5.结果

用在ILSVRC-2010的神经网络在top-1和top-5测试的错误率是百分之37.5和百分之17.在2010年最好的ILSVRC的比赛结果是百分之47.1和百分之28.2。(还有一些ILSVRC-2011等结果)

定性评价:下图说明了被两个数据连接层学习的卷积核的结果。神经网络学习了很多频率及方向选择核,也学习了不同颜色的斑点。注意用两个GPU的专业化展示,连接被限制。在GPU1的核是大量颜色不可知,在GPU2的核是大量颜色特殊化。这种特殊化发生在每次程序跑的过程中而且对于任何随机权重的初始化是独立的。

AlexNet原文说明「建议收藏」

在图4的左侧,我们质量性的评估网络在8张图片中用计算前5个预测学习的结果。注意到不在中心的物体,比如说在左上角的,可以被网络识别。大多数top-5标签合理地出现了。例如,只有一种猫被似是而非的认为是豹子。在一些例子中,照片的焦点确实是模糊的。另一种方式来探测神经网络的视觉知识是要考虑在最后隐含层的特征下降。假如两个图像用一个小的欧式距离来生成特征应激,则高层的神经网络将会更类似。图4支出从测试集中的5张图和从训练集中的6张图通过这种方式将最相似。注意到在像素层,检索的训练图像大体上不会靠近L2在第一列的询问图像。例如,检索的狗和大象出现了很多姿势。

在4096维度用欧氏距离计算相似性,真实价值的向量是非有效的,但是它可以通过训练自动压缩向量来简短代码来增加效率。这个可以制造一个更加好的检索方法相对于直接对原像素应用代码。

6.讨论

我们结果显示一个大的,深的卷积神经网络对于用纯粹的监督式学习的高挑战数集进行了记录的打破。结果显示我们的神经网络表现降低了如果一个单卷积层被移动了。为了简化我们的实验,我们不用任何非监督式的预训练即使我们期待它将会有帮助,特别是在我们没有在标签数据量上进行相应的增加时获得了足够的计算量去增加神经网络的尺寸。迄今为止,因为我们用了更大的网络训练它的视觉更惨使得结果改善了但是我们还有许多目标要去实现去匹配人类的视觉系统。最终我们希望能够用大的深的神经网络在提供丢失或在稳定图像上不明显的的有用信息。

 

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/10610.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注