统一结构的全参考和无参考图像质量评价方法转让专利

申请号 : CN201910136696.3

文献号 : CN109919920B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 廖英豪陈浩鹏李斐

申请人 : 厦门大学

摘要 :

统一结构的全参考和无参考图像质量评价方法,涉及图像处理。图像分割及滤波分解处理;特征提取网络及回归网络设计。能够对失真图像质量进行评估,能够应用于全参考和无参考图像质量评价任务。采用卷积神经网络学习图像特征到主管质量分数的映射,从而实现图像质量评价任务。建立在深度学习机器学习集统计学的基础上,特点是对不同图像质量评价任务结构不变,实用性可靠性强,可移植性强,能够预测符合人眼审美的主观质量分数,节约人眼评价的人工成本。

权利要求 :

1.统一结构的全参考和无参考图像质量评价方法,其特征在于包括以下步骤:

1)图像分割及滤波分解处理,具体方法为:

为了解决无参考图像缺乏有效的参考图像的问题,并使无参考图像质量评价方法与全参考图像质量评价方法结构一致,对于无参考图像质量评价任务,将失真图像经过多次滤波分解选取图像的低频分量作为参考图像;图像分解按照公式(1)实现,公式(1)中I表示待分解的图像,Bi(I)表示对图像I进行i次高斯滤波,公式(1)如下:为了解决神经网络训练过程中出现的过拟合问题及图像的输入分辨率问题,同时为了保证输入图像尽可能的不损失信息,对于图像质量评价方法,将失真图像及对应的参考图像随机分割成32个分辨率为156×156×3的图像对;

2)特征提取网络及回归网络设计,具体方法为:

采用卷积神经网络VGG作为图像的特征提取器,同时考虑到图像质量评价任务对噪声非常敏感,因此在设计卷积层的过程中将不使用周围填零的操作,padding设置为有效值;

为了提升卷积神经网络的泛化能力,将卷积神经网络提取的特征图到主观分数的映射加入矩估计法;计算主观分数的一阶原点矩和s阶中心矩,s表示中心矩的阶数,具体方法按照下列公式(2)和(3)实现,其中,E(Score)为网络输出分数的期望,图像特征的维度N=w×h,其中,w和h分别是图像特征的宽和高,fdi,c(θ,Id)和fri,c(θ,Ir)分别是失真图像和参考图像高维特征层上第c个通道上第i个点的值,θ表示权重参数,Id,Ir分别是失真图像和参考图像:为了实现主观分数预测,将VGG网络提取的特征和矩估计法计算的新特征融合在一起作为新的特征,送入两层全连接层构成的回归器,将特征图映射成主观分数作为系统的最终输出;

为了让网络优化自身的参数,损失函数如公式(4)所示,其中,p(θ,fr-fd)为网络输出分数,θ为权重参数,y为真实的图像分数标签即图像的DMOS分数,fr和fd是参考图像和失真图像的高维特征;采用网络的输出与实际标签的差的绝对值损失函数;若采用均方误差损失函数,则容易对异常的值产生较大响应,造成系统的泛化能力下降;通过Adam优化器来极小化损失函数,从而实现网络参数的优化,公式(4)如下:loss=|p(θ,fr-fd)-y|  (4)

网络模型在训练集上训练好后,使用过程将图像输入到训练好的模型中观察输出的结果即可。

说明书 :

统一结构的全参考和无参考图像质量评价方法

技术领域

[0001] 本发明涉及图像处理,尤其是涉及基于深度学习和统计学的统一结构的全参考和无参考图像质量评价方法。

背景技术

[0002] 图像质量评价是图像处理中一项重要的基础工作,在许多其它图像处理工作中都存在应用,如图像增强和超分辨率重建等,因此备受科研工作者的关注。图像质量评价任务根据是否使用参考图像分为:无参考图像质量评价(失真图像不存在参考图像)、半参考图像质量评价(部分失真图像存在参考图像)、全参考图像质量评价(所有失真图像都存在参考图像)。这三个任务的实现难度依次降低。文献([1]Zhang L,Zhang L,Mou X,et al.FSIM:A feature similarity index for image quality assessment[J].IEEE transactions on Image Processing,2011,20(8):2378-2386;[2]Pei S C,Chen L H.Image quality assessment using human visual DOG model fused with random forest[J].IEEE Transactions on Image Processing,2015,24(11):3282-3292;[3]Moorthy A K,Bovik A C.Blind image quality assessment:From nature scene statistics to perceptual quality[J].IEEE transactions on Image Processing,2011,20(12):3350-3364)中提出的传统方法是通过设计人工特征,将特征结合机器学习的方法(如支持向量回归,随机森林等方法)实现图像质量评价,这类方法对人工特征的要求很高。实际很难找到最好的人工设计的特征。
[0003] 近年来,深度学习应用于图像质量评价任务解决了特征设计带来的困难,在特征提取方面取得了不错的效果。图像失真的类型有很多,例如在常用的数据集LIVE上有5种失真类型,而TID2013数据集上有24种失真方式。基于人工特征的图像质量评价的方法很难做到很好的泛化能力。神经网络具有很强的非线性拟合能力因此能够学习泛化能力很强的特征,Gao F([4]Gao F,Wang Y,Li P,Tan M,Yu J,Zhu Y.Deepsim:Deep similarity for image quality assessment[J].Neurocomputing,2017,257:104-114)和Bosse S([5]Bosse S,Maniry D,Müller K R,et al.Deep neural networks for no-reference and full-reference image quality assessment[J].IEEE Transactions on Image Processing,2018,27(1):206-219)提出的基于卷积神经网络的图像质量评价方法,预测的分数与实际主观分数的一致性很高,但这些方法忽略了图像领域知识的应用。此外,对于无参考图像质量评价任务和全参考图像质量评价任务深度学习的网络结构是不一样的。
[0004] 为了进一步增强网络的泛化能力我们引入统计学中矩估计法来优化深度网络,同时结合图像处理的领域知识提升无参考图像质量评价任务中的表现,并且使得无参考图像质量评价任务中的网络结构与全参考的网络结构一致。

发明内容

[0005] 本发明的目的在于提供可提升预测分数与实际分数之间的相关性,减少人眼观测的人力资源消耗的统一结构的全参考和无参考图像质量评价方法。
[0006] 本发明包括以下步骤:
[0007] 1)图像分割及滤波分解处理;
[0008] 2)特征提取网络及回归网络设计。
[0009] 在步骤1)中,所述图像分割及滤波分解处理的具体方法可为:
[0010] (1)为了解决无参考图像缺乏有效的参考图像的问题,并使无参考图像质量评价方法与全参考图像质量评价方法结构一致,对于无参考图像质量评价任务,将失真图像经过多次滤波分解选取图像的低频分量作为参考图像;图像分解按照公式(1)实现,公式(1)中I表示待分解的图像,Bi(I)表示对图像I进行i次高斯滤波,公式(1)如下:
[0011]
[0012] (2)为了解决神经网络训练过程中出现的过拟合问题及图像的输入分辨率问题,对于图像质量评价方法,将失真图像及对应的参考图像随机分割成32个分辨率为156×156×3的图像对,同时为了保证输入图像尽可能的不损失信息。
[0013] 在步骤2)中,所述特征提取网络及回归网络设计的具体方法可为:
[0014] (1)采用经典卷积神经网络(VGG)作为图像的特征提取器,同时考虑到图像质量评价任务对噪声非常敏感,因此在设计卷积层的过程中将不使用周围填零的操作即padding设置为有效值;
[0015] (2)为了提升卷积神经网络的泛化能力,将卷积神经网络提取的特征图(分数图)到主观分数的映射加入矩估计法;计算分数的一阶原点矩和s阶中心矩,s表示中心矩的阶数,具体方法按照下列公式(2)和(3)实现E(Score)为网络输出分数的期望,为图像特征的维度N=w×h,其中,w和h分别是图像特征的宽和高,fdi,c(θ,Id)和fri,c(θ,Ir)分别是失真图像和参考图像高维特征层上第c个通道上第i个点的值,θ表示估计的参数,Id,Ir分别是失真图像和参考图像:
[0016]
[0017]
[0018] (3)为了实现主管分数预测,将VGG网络提取的特征和矩估计法计算的新特征融合在一起作为新的特征,送入两层全连接层构成的回归器,将特征图(分数图)映射成主观分数作为系统的最终输出;
[0019] (4)为了让网络优化自身的参数,损失函数如公式(4)所示,其中,p(θ,fr-fd)为网络输出分数,θ为权重参数,y为真实的图像分数标签即图像的DMOS分数,fr和fd是参考图像和失真图像的高维特征;采用网络的输出与实际标签的差的绝对值损失函数;若采用均方误差损失函数,则容易对异常的值产生较大响应,造成系统的泛化能力下降;通过Adam优化器来极小化损失函数,从而实现网络参数的优化,公式(4)如下:
[0020] loss=|p(θ,fr-fd)-y|  (4)
[0021] (5)网络模型在训练集上训练好后,使用过程只需要将图像输入到训练好的模型中观察输出的结果即可。
[0022] 本发明能够对失真图像质量进行评估,能够应用于全参考和无参考图像质量评价任务。本发明采用卷积神经网络学习图像特征到主管质量分数的映射,从而实现图像质量评价任务。本发明建立在深度学习机器学习集统计学的基础上,本发明的特点是对不同图像质量评价任务结构不变,实用性可靠性强,可移植性强,能够预测符合人眼审美的主观质量分数,节约人眼评价的人工成本。

附图说明

[0023] 图1为LIVE数据集上参考图像和失真图像的结构相似指数,(SSIM)随着滤波次数变化情况。不同的曲线对应不同的失真类型图像随滤波次数的变化情况。在图1中,曲线①为jpeg,②为gblur,③为fastfading,④为wn,⑤为jp2k。
[0024] 图2为TID2013数据集上参考图像和失真图像的结构相似指数,(SSIM)随着滤波次数变化情况。不同的曲线对应不同的失真类型图像随滤波次数的变化情况。
[0025] 图3为图像质量评价方法结构示意图。全参考图像质量评价方法输入为失真图像和对应的参考图像,对于无参考图像质量评价方法输入则是失真图像和失真图像的低频分量。
[0026] 图4为全参考图像质量评价方法预测结果与无参考图像质量评价方法实际预测效果对比。在图4中,图a表示预测差异分数:0.003分,实际差异分数:0分;图b表示预测差异分数:86.911分,实际差异分数:88.142分;图c表示预测差异分数:3.677分,实际差异分数:0分;图d表示预测差异分数:80.414分,实际差异分数:88.142分。

具体实施方式

[0027] 以下实施例将结合附图对本发明作进一步的说明。
[0028] 本发明实施例包括以下步骤:
[0029] (一)质量评价方法数据准备及图像预处理方法
[0030] 以下详细讲解无参考图像质量评价方法的输入和无参考图像质量评价方法的输入图像预处理。
[0031] 第一步:将数据集中的失真图像和参考图像及失真图像的平均差异主观分数(DMOS)对应起来保存成一个文件中。平均差异主观分数的值越小图像质量越好,例如参考图像的平均差异分数为0分。若数据集提供的是平均主观质量分数(MOS),则将分数转换成范围在[0,100]之内的差异主观分数(DMOS)。具体实现方式按照公式(5)实现。平均主观质量分数的值越大图像的质量越好,例如在TID2013数据集中参考图像的平均主观分数最高为9分。对于不同数据集上的训练集和测试集是按照参考图像的数目中1︰4的比例分配参考图像的。具体的LIVE数据集中共29张参考图像,测试集分配6张参考图像,训练集分配23张图像,CSIQ数据集中共30张参考图像,测试集6张参考图像,训练集24张参考图像。TID2013数据集中共25张参考图像,测试集分配5张参考图像,训练集20张参考图像,公式(5)如下:
[0032]
[0033] 其中,min(MOS)表示整个数据集中最小的平均主观分数,max(MOS)表示整个数据集中最大的平均主观分数。DMOS是需要得到的差异平均主观分数。MOS是当前失真图像的平均主观分数。
[0034] 第二步:根据任务的不同,图像质量评价方法的输入的参考图像分两类。系统的失真图像在全参考和无参考任务中是一致的,区别在于参考图像分别是原始参考图像和失真图像的低频分量;
[0035] 第一类:对于全参考图像将失真图像通过产生一组32个随机数的方法进行随机裁剪,当然保证失真图像对应的参考图像随机裁剪的随机过程与失真图像是一致的,即随机数用的是同一组;
[0036] 第二类:对于无参考图像质量评价方法的失真图像的参考图像实质是将失真图像经过10次高斯滤波后得到的低频分量。高斯核分辨率为(7,7)方差为1.6。通过分析数据集上的参考图像与其对应的失真图像不同频带之间的结构相似指标随着滤波等级变化的情况如图1和图2所示。这表明参考图像与失真图像的低频分量结构相似度很高,失真图像主要失真集中于图像的高频分量和中频分量中。为了使本发明关注到失真的主要成份,本发明通过引入失真图像的低频分量作为参考图像来度量失真图像的失真程度。这样网络通过引入人眼关注的频率分量的知识到无参考图像质量评价任务中,给神经网络提供了合理的约束条件,从而降低网络学习难度。
[0037] (二)卷积神经网络的结构及训练方法
[0038] 以下详细说明图像质量评价方法的结构及训练过程
[0039] 1、图像质量评价方法的结构如图3所示,通过卷积网络分别提取失真图像的特征(分数图)和参考图像的特征(分数图),这里实现了卷积网络的权重共享,之后特征由全连接网络回归到主观分数。
[0040] 2、参数初始化:卷积层参数初始化方法为Xavier,即均值为0,方差为 的均匀分布,其中,nin表示神经元的个数。偏置项初始化为常数0,学习率初始化为10-4网络一次训练图像的数目为32,对于每个数据集训练过程都是迭代1000次。当训练次数达到500次后学习率减小10倍,避免网络收敛过程因学习率太大造成震荡。
[0041] 3、训练过程:前向传播算法实现参考图像和失真图像的特征提取,分别计算参考图像和失真图像的特征的一阶原点矩和二阶中心矩,将参考图像的特征、一阶原点矩和二阶中心矩分别减去失真图像的特征、一阶原点矩和二阶中心矩,将相减的特征融合在一起送入全连接网络,通过极小化损失函数实现反向传播算法从而实现系统的权重参数的优化。
[0042] (三)图像质量评价方法的评价指标
[0043] 目前评价图像质量评价方法的指标主要是斯皮尔曼相关系数(SROCC)和皮尔逊相关系数(PLCC)计算方法分别由公式(6)和(7)得到。公式(6)中rxi和ryi分别表示排序后的预测分数和排序后的主观分数,i表示第i幅图像,n表示测试图像总数。公式(7)中xi和yi分别表示预测的主观分数于实际主观分数,i表示第i张图,表示测试图像的总数σx和σy分别表示xi和yi的标准差,和 分别表示xi和yi的均值。SROCC和PLCC的取值范围都是[-1,1],取值小于零表示负相关,大于零表示正相关。绝对值越接近于1相关程度越高,公式(6)和(7)如下:
[0044]
[0045]
[0046] (四)图像质量评价方法的应用
[0047] 根据不同类型的图像质量评价任务,图像质量评价方法的表现是不同的一般而言全参考的效果优于无参考的方法。
[0048] 1)全参考图像质量评价方法:调用训练好的全参考网络的参数,直接将参考图像和失真图像分割后送入系统,系统的输出即图像的分数。本发明在LIVE数据测试集上全参考方法斯皮尔曼相关系数为:0.984,斯皮尔曼相关系数达到:0.981。TID2013测试集上全参考的方法,斯皮尔曼相关系数为:0.946斯皮尔曼相关系数为:0.938。本发明的泛化能力也取得很好的效果,全参考图像质量评价方法在跨数据集上的表现与最新的方法对比如表1所示。在整个LIVE数据集上训练,分别在整个TID2013和CSIQ数据集上测试,在整个TID2013数据集上训练,分别在LIVE和CSIQ数据机上测试。分别在LIVE数据集中的训练集和TID2013数据集中的训练集上训练得到的方法的表现如表2所示。
[0049] 表1
[0050]
[0051] 表2
[0052]
[0053] 2)无参考图像质量评价方法:调用训练好的无参考模型,将失真图像经过滤波得到参考图像,将失真图像和参考图像分割后送入无参考图像质量评价方法的输出即为图像的质量分数。本发明在无参考图像质量评价任务中取得不错的效果如表3所示。
[0054] 表3
[0055]
[0056] 3)LIVE数据集上无参考图像质量评价方法与全参考图像质量评价方法在实际预测分数上的差异对比如图4所示,可以看出全参考的图像质量评价方法预测结果明显优于无参考图像质量评价方法的预测结果,更加接近真实的平均主观差异分数。