Abstract
深度卷积神经网络(CNN)在图像识别方面取得了巨大的成功。许多图像质量评估(IQA)方法直接使用面向识别的CNN进行质量预测。但是,IQA任务的属性不同于图像识别任务。图像识别应该对视觉内容敏感并且对失真具有鲁棒性,而IQA应该对失真和视觉内容都敏感。本文针对盲IQA(BIQA)开发了一种面向IQA的CNN方法,该方法可以有效地表示质量下降。CNN是大数据驱动的,而现有IQA数据库的大小对于CNN优化来说太小了。因此,首先建立了一个较大的IQA数据集,其中包括超过一百万个失真的图像(每个图像都分配有一个质量得分作为其平均意见得分(MOS)的替代,缩写为伪MOS)。接下来,受人类视觉系统中分层感知机制(从局部结构到全局语义)的启发,设计了一种新的面向IQA的CNN方法,其中考虑了分层降级。最后,通过在端到端框架中共同优化多级特征提取,分层降级级联(HDC)和质量预测,介绍了具有HDC的级联CNN(称为CaHDC)。在基准IQA数据库上进行的实验表明,与现有的BIQA方法相比,CaHDC的优越性。同时,与其他基于CNN的BIQA模型相比,CaHDC(参数约为0.73M)轻巧,这可以在微处理系统中轻松实现。所建议方法的数据集和源代码可从https://web.xidian.edu.cn/wjj/paper.html获得。
Introduction
如今,客观的图像质量评估(IQA)在图像/视频处理中起着重要的作用。在过去的几十年中,已经引入了多种IQA方法,它们可以分为三类:全参考(FR)IQA(需要完整参考图像),降参考(RR)IQA(其中使用部分参考信息)和无参考(NR)IQA(不需要参考信息)[[1]]()。然而,实际上,参考图像通常不可用。因此,NRIQA,也称为盲IQA(BIQA),成为一个热门的研究主题。
大多数早期的BIQA属于知识驱动方法,需要根据人类视觉系统(HVS)或自然场景统计(NSS)的属性手动设计特征描述符[[2]]() – [[3] ]()[[4] ]()[[5] ]()[[ 6] ]()[[7] ]()[[8] ]()[[9] ]()[[10] ]()[[11]]()。但是,很难设计出可以有效代表BIQA质量下降的手工特征。由于卷积神经网络(CNN)强大的特征表示能力,最近提出了一些基于CNN的BIQA(属于数据驱动)。这些方法主要基于两个思想。一种是采用现有的预先训练的CNN模型作为特征或多级特征提取器和SVR以进行质量预测[[12]]() – [[13] ]()[[14]](),它们不能共同优化整个框架。另一种遵循BIQA [[15]]() – [[16] ]()[[17] ]()[[18] ]()[[19]]()的端到端方式。就像许多用于图像识别任务的CNN模型一样,其中仅使用了最后卷积层的特征。所有这些基于CNN的BIQA都无法充分利用HVS的感知特性。尽管已经设计了许多CNN框架并在图像识别任务中取得了很大的成功,但是IQA的特征却与图像识别有所不同。图像识别任务应对视觉内容敏感并且对失真具有鲁棒性,而IQA任务应对失真和视觉内容均敏感。许多现有的BIQA方法使用面向识别的CNN进行质量预测,但可能无法完全适应。因此,我们需要为BIQA设计一个面向IQA的CNN方法。
此外,这些基于CNN的BIQA的普遍问题是缺少大型的带质量注释的IQA数据库,而该数据库需要训练具有强大泛化能力的网络。因此,我们首先建立了一个大规模的IQA数据集,其中包括从一万个高质量原始图像(5个级别中的21种失真类型)生成的一百万个失真图像。由于现有FRIQA的性能[[20]]() – [[21] ]()[[22] ]()[[23] ]()[[24]]()与HVS高度一致,因此,针对每种失真类型选择最佳的FRIQA,然后合并以为每个失真图像设置质量得分,如下所示:它的MOS,缩写为伪MOS(在[第三部分中,]()通过实验验证了我们提出的分配伪MOS的方法的可靠性)。
在这项工作中,为了应对缺乏基于IQA的基于CNN的方法的另一个挑战,我们考虑在BIQA框架设计的视觉感知过程中利用分层降级。神经科学的研究表明了视觉感知的分层过程[[25]](),[[26]]()。巧合的是,CNN自然地学习了层次特征(从低层到高层),层的深度从浅到深。低层特征更多地关注局部细节,中层特征主要集中于区域模式,而高层特征则富含全局摘要。如图[1]()所示,通过[[27]]()的方法对卷积网络[1]()进行可视化。从IQA的角度,我们可以观察到变形影响不同级别的特征并导致层次质量下降。例如,在低层次上,网络专注于局部细节,[如图1(b)所示](),但是如图1(f)所示,局部细节将被失真破坏。分级降级是指由于扭曲导致的分级特征破坏。因此,有必要考虑IQA的分层降级。因此,我们设计了一个端到端的级联CNN框架,其中可以共同优化特征提取,分层降级级联和质量预测的过程。实验结果表明,CaHDC与现有的BIQA方法相比具有优越性。值得一提的是,CaHDC的参数数量远远少于其他基于CNN的BIQA。
图 1分层降级对图像质量的影响的图示。(a)参考图像作为输入。(b)-(d)可视化参考图像在不同层的特征。(e)图像失真。(f)-(h)可视化变形图像在不同层的特征。
本文的主要贡献可归纳如下:
建立了大规模的带质量注释的数据集,以解决训练数据有限的问题,该数据跨越了视觉内容和失真的巨大差异。我们提出的方法分配的伪MOS是可靠的,并且可以与主观测试相媲美。
受HVS中分层感知机制的启发,我们提出了一种面向IQA的CNN方法,该方法将BIQA的分层降级串联起来,整个过程(即特征提取,分层降级串联和质量回归可以通过最终优化)得以实现。端到端的方式。受益于分层降级连接和端到端优化,CaHDC可以更好地了解质量降级的性质。实验结果表明,CaHDC达到了最先进的水平。
作为仅具有0.73M参数的轻型网络,建议的IQA模型可以在微处理系统(例如NVIDIA JETSON TX2)中轻松实现,可以满足准确性和实时性的要求。
相关工作
A.传统的盲像质量评估
传统的BIQA旨在设计手工制作的特征描述符,这些描述符试图提取可以有效表示质量下降的特征。然后,采用非线性回归程序(例如SVR)将高维特征回归为质量得分。最经典的方法是基于自然场景统计(NSS)的BIQA。这种方法估计自然图像的统计分布,然后捕获参数偏差以评估图像质量下降。例如,DIIVINE [[2]]()首先区分失真类型,然后采用特定于失真的方法来利用NSS功能获取质量得分。BLIINDS-II [[3]]()利用离散余弦变换(DCT)系数的NSS模型来评估图像质量。布里斯克[[4]]()使用广义高斯分布(GGD)提取空间域中的特征,然后采用SVR将特征空间映射到质量得分。NIQE [[28]]()构建了质量感知功能,并将其与多元高斯(MVG)模型相匹配。此外,还有其他设计特征描述符的方法,例如RISE [[8]]()通过学习空间和光谱域中的多尺度特征来评估图像清晰度,从而模仿HVS的多尺度特征。
B.基于CNN的盲图像质量评估
在过去的几年中,随着CNN在各种视觉任务中的出色表现,已经提出了一些基于CNN的BIQA。主要有两种基于CNN的BIQA,其架构如图[2(a)和(b)所示]。第一种是端到端的,但没有集成[如图2(a)所示的]分层降级。例如,WaDIQaM [[16]]()提出了一种基于深度神经网络的BIQA的端到端方法,其中加权平均面片聚合用于获得全局图像质量。BIECON [[19]]()遵循FRIQA行为,使用局部质量图作为卷积神经网络的中间目标,然后将合并的特征回归为质量得分。RANK[17]]()训练连体网络对图像进行排名,这些图像是通过将合成失真添加到参考图像中而生成的。MEON [[18]]()由两个子网组成:失真识别子网和质量预测子网。尽管这些方法采用了端到端的优化框架,但它们仅使用最后一层的输出来评估图像质量。但是,不同程度的失真会在层次结构特征上产生不同的降级。上述这些方法不能有效地表示分层降级。
图2 现有的BIQA体系结构:(a)端到端而非分层框架。(b)分层但不是端到端的框架。(c)我们提出的端到端网络同时结合了分级降级。
为了捕获分层降级,一些研究人员从现有的预先训练的CNN模型中提取了多级特征(在其他任务上,例如对象分类),然后将这些特征与SVR回归以预测图像质量。这种类型的结构由[图2(b)表示]()。例如,BLINDER [[12]]()在VGG16 [[29]的]()每一层提取特征。然后,利用SVR获取每个层的得分,并通过平均分层得分来计算最终质量得分。HFD-BIQA [[13]]()结合了低层的本地结构特征和从ResNet中提取的高层语义特征[[30]]()。然后,将合并的功能馈入SVR以获取最终质量得分。尽管这些方法结合了不同级别的特征并从多个尺度衡量了质量下降,但它们分别提取特征并预测质量得分。由于它们不在端到端优化的网络结构内,因此此类BIQA无法共同优化整个过程。此外,这些模型的性能和泛化能力始终受到用于预训练的任务的约束。
而且,所有这些基于CNN的BIQA都存在一个共同的问题:缺少大量的训练数据。现有的数据库(它们的大小太小)无法提供足够的训练图像来优化具有高泛化能力的网络。因此,不可避免地采用数据扩充,并且最广泛使用的方法是基于补丁的方法。尽管此技能在具有合成失真的数据库上有效,但是在将图像划分为小块时仍存在许多缺点,例如图像大小32 × 32 :1)将原始图像的MOS分配给其采样斑块,而每个斑块的质量因内容和真实失真的空间不均匀性而有所不同。2)多项研究利用FRIQA为每个补丁生成代理质量标签。但是,这样的小补丁可能没有足够的语义信息来判断其质量。而且一种FRIQA方法不能在所有失真类型中都达到最佳性能。3)每个色块的主观感知质量与整个图像并不完全相同。
在这项工作中,我们首先建立了一个大规模的带有质量注释的数据集,以解决基于合并多个FRIQA的缺乏训练数据的问题。实际上,一些先前的研究已经利用FRIQA来生成未标记图像的质量得分。在BIQME [[31]中](),提出了一种高精度FRIQA方法,即基于色彩的PCQI [[32]](),以预测增强图像的质量得分。BLISS [[33]]()使用无监督等级汇总来组合不同的FRIQA以生成综合得分。此外,MMF [[34]]()还提出了一种融合多个FRIQA的回归方法。具体而言,将新的MMF分数设置为来自多个FRIQA的分数的非线性组合。与以前的策略不同,我们提出了一种直观有效的方法来合并多个FRIQA,这将在[第三部分中]()介绍。
随后,提出了一种端到端级联的CNN模型(称为CaHDC,如图[2(c)所示]()),该模型考虑了层次退化并同时优化了整个过程。值得一提的是,尽管CaHDC的参数数量很少,但仍保持高性能。它极大地减轻了过拟合的情况,并实现了卓越的跨数据库性能。
带有伪MOS的大规模数据集
具有高泛化能力的深度卷积神经网络的优化需要大量数据,但是,最流行的IQA数据库,例如LIVE [[35]](),CSIQ [[36]](),TID2013 [[37]](),通常太小。现有的最大数据集(即TID2013)仅拥有3000张扭曲的图像,这些图像是从25张原始图像中得出的。有限的数据大小很容易导致深度神经网络的过度拟合。Waterloo Exploration Database [[38]]()包含从4744个高质量自然图像生成的94880个失真图像。但是,它仅包含4种失真类型,并且所有图像均缺少质量标签。由于很难通过主观实验来收集图像的MOS,这通常需要严格控制的条件,因此相对于其他图像分析数据库而言,数据收集量较小。为了克服这些问题,我们基于合并多个FRIQA建立具有伪MOS的大规模质量注释数据集。
在这项工作中,首先从MSCOCO [[39]中]()选择了10,000张高质量图像作为参考图像。接下来,在5个噪声水平下,每个参考图像都会因21种失真而退化。结果,收集了1,050,000个失真的图像。然后,选择每种失真类型的最佳FRIQA,以计算图像的质量得分。采用了五个经典FRIQA指标。最终,我们通过为每种畸变类型构建非线性映射函数以获得统一的伪MOS,来标准化所有畸变图像的质量得分。表1 列出了我们建议的数据集和其他4个数据库之间的比较。我们提出的数据集在图像数量方面远远领先于其他数据库。因此,我们可以利用足够的标记数据来训练稳定而健壮的深度网络,从而大大缓解过度拟合的情况。
TABLE I Comparison of Existing IQA Databases and Our Proposed Dataset
A.原始图像
我们提出的数据集的参考图像来自大型数据库MSCOCO [[39]](),广泛用于对象检测,分割和字幕。MSCOCO中有许多图像严重失真或感知质量差。因此,选择高质量图像的手动过程至关重要。仅将高质量和清晰内容的原始图像选作参考图像。具体来说,我们首先删除那些经历明显失真的低质量图像,例如运动模糊,散焦模糊,高斯噪声,脉冲噪声,压缩伪像,曝光不足或过度曝光,低对比度,虚假边框,水印和其他失真。接下来,还将删除灰度图像和较小尺寸或低分辨率的图像。最后,仅剩下10,000张高质量原始图像作为参考图像。
B.影像失真
与TID2013(最大的IQA数据库,其中包含3,000张扭曲的图像,其中5种水平下的24种畸变类型)相似,我们生成21种畸变类型,列为[Tab。二]()。之后,在5个噪声水平下,每个参考图像都会因21种失真类型而退化。结果,总共收集了1,050,000个失真的图像。
TABLE II The 21 Distortion Types and Corresponding Best FRIQA
C.伪MOS的生成
为了为每个失真图像生成可靠的伪MOS,采用了五个经典FRIQA,即PSNR,FSIMc [[21]](),GSM [[22]](),VSI [[23]](),GMSD [[24]]()。[标签。三级]()列出了TID2013每种失真类型上这五个FRIQA的SROCC。伪MOS可以通过两种方法分配。生成伪MOS的最简单方法是对所有失真图像采用单个FRIQA。但是,一个FRIQA会对不同的失真类型做出不同的响应。尽管某些FRIQA可以在大多数失真类型上实现良好的性能,但它们的性能在某些特定的失真类型上并不令人满意。例如,在TID2013上,VSI在#11(JPEG2000压缩失真)上获得了最佳的SROCC(0.971),但是在#13(局部逐块失真)上,SROCC却急剧下降到0.171。因此,我们利用其他综合手段,将FRIQA在不同失真类型上的差异考虑在内。我们根据性能为每种失真类型选择最佳的FRIQA。[标签。II]()列出了每种失真类型的最佳FRIQA。
组合多个FRIQA时会出现另一个问题。不同的FRIQA针对不同的失真类型产生不同的质量值量表,因此我们需要将它们标准化为统一的范围。在这项工作中,采用非线性映射函数将来自不同FRIQA的预测质量值映射到与TID2013中相同的统一尺度。非线性映射函数公式为[[35]](),[[40]]()
Q = {\beta *{1}}\left ({
{\frac {1}{2} – \frac {1}{
{1 + \exp ({\beta _{2}}({Q_{s}} – {\beta _{3}}))}}} }\right) + {\beta _{4}}{Q*{s}} + {\beta _{5}}Q=β∗1(21−1+exp(β2(Qs−β3))1)+β4Q∗s+β5
其中Q是标准化分数,并且 Q_sQs是FRIQA的预测分数。 {β1,β2,β3,β4,β5} 是要拟合的参数。直观地,有两种方法可以构建映射模型以合并预测的质量值。
1、由FRIQA从表1合并,我们可以看到一种FRIQA可以在一种以上的失真类型上实现最佳性能。因此,合并预测质量值的一种方法是通过FRIQA建立映射模型,
Q = {f^{n}}(Q_{s}^{n})\quad {\mathrm{ n}} \in {\mathrm{[1,}}N{\mathrm{]}}Q=fn(Qsn)n∈[1,N]
其中N是我们在多个FRIQA中使用的FRIQA的数量, Q_s^nQsn是属于第n个FRIQA在其上获得最佳性能的失真类型的图像的预测分数,并且 f^n(·)fn(⋅) 是为第n个FRIQA构建的映射模型。通过这种方式,构建了5个映射模型以合并我们提出的数据集的预测质量值。
2、失真合并 合并预测质量值的另一种方法是按失真类型建立映射模型,
Q = {f^{m}}(Q_{s}^{m})\quad {\mathrm{ m}} \in {\mathrm{[1,}}M{\mathrm{]}}Q=fm(Qsm)m∈[1,M]
其中M是我们的数据集中的畸变类型数。 Q^m_sQsm是属于第m个失真类型的图像的预测分数,并且 f^m(·)fm(⋅) 是为第m个失真类型构建的映射模型。对于我们建议的数据集,有21种通过失真构建的映射模型。
我们在TID2013上比较了上述方法的性能。表4 列出了通过不同的单个FRIQA和多个FRIQA实现的SROCC和PLCC。可以看出,由于考虑了不同失真类型的特性,多FRIQA的SROCC和PLCC(失真合并)实现了最佳性能(0.947和0.954),这比其他方法要高得多。这表明多重FRIQA(失真合并)方法对于质量预测是有效和可靠的。因此,我们将其应用到我们提出的大型数据集上,为每个失真图像分配伪MOS值。
**TABLE IV **Performances of Single FRIQA and Multi-FRIQAs on TID2013
[图3]()给出了我们数据集中伪MOS失真图像的一些样本以及TID2013中具有主观MOS失真的一些图像。所呈现图像的感知质量在以下范围内:{差,差,一般,好,极好}。可以看到,当污染程度接近时,我们提出的数据集中的伪MOS和TID2013中的主观MOS也接近(这证明了我们提出的带有质量注释的大型数据集的可靠性)。
图3。我们建议的数据集和TID2013之间的比较。(a)-(e)在我们提出的数据集中使用伪MOS的不同感知质量图像。(f)-(j)在TID2013中具有主观MOS的不同感知质量图像。
质量预测框架
本节中提出了考虑分级质量下降的端到端BIQA框架(即CaHDC)。提出的CaHDC不仅可以集成分层降级以预测图像质量(对特征进行分层分析和精炼以进行级联),而且可以在端到端框架中共同优化特征提取,分层降级级联和质量预测。详细信息将在下面给出。
A.架构
我们用尺寸表示输入图像 300 × 300 × 3 经过 X 和输入图像的伪MOS / MOS 问¯ 。如图[4所示](),我们提出的模型由三部分组成:用于特征提取的分层网络,用于分层降级融合/级联的边池网络(SiPNets)和用于质量预测的回归网。它们的参数表示为w ^α , w ^β , 和 w ^φ , 分别。选择ReLU作为激活函数,并在所有卷积层和完全连接的层都需要特殊说明之后使用。
图4。我们提出的网络架构。 问1个 — 问4 是在不同单个级别上的中级分数。Q是最终的预测质量得分。
分层网络:分层网络由一系列卷积层组成,包括6个级别conv1-x,\ ldots,conv6-x,以提取分层特征(从浅到深/从低到高的层次)。分层网络的参数化细节[如图5]()所示,其中所有卷积层都适用3 × 3 内核 1 × 1 跨步和零填充,以便获得与输入相同大小的输出。同时,2 × 2 在每个级别的输出上使用步幅为2的最大合并和零填充用于下采样。
图5。分层网络的参数化。演示格式为Conv(高度,宽度,输出通道,步幅),Maxpool(高度,宽度,步幅)。
SiPNets:SiPNets的分支来自第一层和第二层以外的其他层次。我们忽略这两个级别的原因是,接收字段的大小太小,参数太多会增加网络的复杂性。如图[6]()所示,SiPNet首先采用具有以下特征的卷积层:1 × 1 Kernel 和 1 × 1 Stride。之后,一系列重复的卷积层3 × 3 Kernel,零填充和 2 × 2 sride 进行下采样(直到大小与10 × 10相同)就像conv6-1一样)。与conv6-1分离的最后一个SiPNet仅具有一个卷积层1 × 1 内核和 1 × 1 大步前进。从SiPNet-1到SiPNet-3降采样的重复卷积层数分别为{3,2,1}。
图6。旁边池化网的例证。. R表示重复的卷积层数。
回归网:回归网包括 K+ 1 个全连接层,FC-1-x, \ldots,FC-5-x,FC−1−x,…,FC−5−x,以将从SiPNets中提取的特征映射到质量分数,其中 K= 4 是要集成的级别数。如图[4]()所示,相同大小的最大池化10 × 10 将特征图应用于SiPNet的每个输出以提取最明显的特征,这些特征表示为:
{S_{i}} = {\Phi_{i}}(X;{W^\alpha }, W_{i}^\beta) \quad i = 1, \ldots, KSi=Φi(X;Wα,Wiβ)i=1,…,K
其中 S_i ∈ R^{64} Si∈R64表示在SiPNet的输出上进行最大池合并后的特征向量, W ^α Wα是层次网络的参数, W^β_iWiβ是第i个SiPNet的参数,并且 Φ_i(⋅ )Φi(⋅) 表示获取特征向量S_iSi的过程 。每个单个级别的预测分数可描述为:
{Q_{i}} = {F_{i}}({S_{i}}; W_{i}^\varphi) \quad i = 1, \ldots, KQi=Fi(Si;Wiφ)i=1,…,K
其中 F_i(⋅)Fi(⋅) 表示完全连接的层FC-i,并且 W^φ_iWiφ 代表FC-i的参数。输入图像的最终预测分数可描述为:
Q={F_{K + 1}}({S};{W_{K + 1}^\varphi }) \\ S={S_{1}} \oplus {S_{2}} \oplus {S_{3}} \oplus {S_{4}} Q=FK+1(S;WK+1φ)S=S1⊕S2⊕S3⊕S4
其中 ⊕ 表示串联操作, S 指示来自不同单个级别的融合特征向量。F_{ķ+ 1}(⋅)Fķ+1(⋅) 表示FC-5的模型,并且 W ^φ_{ķ+ 1}Wķ+1φ 代表FC-5的参数。
B. 损失函数与优化
鉴于我们提出的数据集的伪MOS值是由FRIQA生成的,因此可能会生成一些异常样本(质量标签不准确)。因此,采用Huber损耗来提高网络的鲁棒性。为了确保导数在所有度数上都是连续的,采用了Pseudo-Huber-Loss(Huber损耗的平滑近似之一),
今天的文章withregardto用法_Amount to分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/81934.html