一种基于模型融合和数据增强的低质图像分类增强方法转让专利

申请号 : CN202010607913.5

文献号 : CN111815529B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王道累张天宇朱瑞孙嘉珺李明山李超韩清鹏袁斌霞

申请人 : 上海电力大学

摘要 :

本发明涉及一种基于模型融合和数据增强的低质图像分类增强方法,包括以下步骤:S1:建立图像集;S2:对图像集中进行数据增强;S3:构建并训练VGG16卷积神经网络模型;S4:构建并训练ResNet卷积神经网络模型;S5:输入待分类图像;S6:获取待分类图像的第一概率向量、第二概率向量;S7:获取融合概率向量,并获取待分类图像的图像类别,若图像类型为清晰,进入步骤S9,否则进入步骤S8;S8:对待分类图像进行增强,获取增强图像,并将增强图像作为待分类图像输入步骤S6;S9:输出图像。与现有技术相比,同时采用数据增强以及模型融合两种方式来提升分类的准确率,能够有效地对图像分类,增强效果好。

权利要求 :

1.一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,包括以下步骤:S1:建立图像集,图像集中包括清晰图像、模糊图像和低亮度图像;

S2:对图像集中的图像进行数据增强,所述的数据增强为对图像数据随机进行翻转、旋转、缩放、裁剪、移位、添加噪声和修改对比度中的一个或多个操作;

S3:构建VGG16卷积神经网络模型,通过图像集训练VGG16卷积神经网络模型;

S4:构建ResNet卷积神经网络模型,通过图像集训练ResNet卷积神经网络模型;

S5:输入待分类图像;

S6:将待分类图像输入VGG16卷积神经网络模型,获取待分类图像的第一概率向量,将待分类图像输入ResNet卷积神经网络模型,获取待分类图像的第二概率向量;

S7:融合第一概率向量和第二概率向量,得到融合概率向量,并获取待分类图像的图像类别,若图像类型为清晰,进入步骤S9,否则进入步骤S8;

S8:选取与图像类型对应的图像增强算法对待分类图像进行增强,获取增强图像,并将增强图像作为待分类图像输入步骤S6;

S9:输出图像;

所述的S8中采用基于GAN进行盲运动模糊移除算法对图像类型为模糊图像的图像进行增强处理。

2.根据权利要求1所述的一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,所述的第一概率向量为:[λa1,λa2,λa3]

其中,λa1,λa2,λa3分别为VGG16卷积神经网络模型中获取的图像分别为清晰图像、模糊图像和低亮度图像的概率,所述的第二概率向量为:

[λb1,λb2,λb3]

其中,λb1,λb2,λb3分别为ResNet卷积神经网络模型中获取的图像分别为清晰图像、模糊图像和低亮度图像的概率,所述的融合概率向量为:

[λa1+λb1,λa2+λb2,λa3+λba]

所述的融合概率向量中的最大值代表的图像类型为待分类图像的图像类型。

3.根据权利要求1所述的一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,所述的VGG16卷积神经网络模型的分类器包含两个全连接层,其中第二个全连接层采用Softmax激活函数,并且第二个全连接层将由第一个全连接层的输入值映射到区间(0,1)之间,获取第一概率向量。

4.根据权利要求1所述的一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,所述的ResNet卷积神经网络模型的分类器包含两个全连接层,其中第二个全连接层采用Softmax激活函数,并且第二个全连接层将由第一个全连接层的输入值映射到区间(0,1)之间,获取第二概率向量。

5.根据权利要求1所述的一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,所述的步骤S2中数据增强为对图像数据进行水平旋转、竖直旋转,所述的步骤S2具体为:S21:取图像的左下角顶点为原点O,建立xyz空间坐标系,所述图像的大小为a×b,所述的图像与xy平面重合;

S22:随机判定对图像进行水平旋转或不进行水平旋转,水平旋转或不水平旋转的概率均为0.5,若水平旋转,以(x=a/2,z=0)为转轴旋转图像180°,否则进入步骤S22;

S23:随机判定对图像进行竖直旋转或不进行竖直旋转,竖直旋转或不竖直旋转的概率均为0.5,若竖直旋转,以(y=b/2,z=0)为转轴旋转图像180°,完成数据增强,否则不进行竖直旋转,完成数据增强。

6.根据权利要求1所述的一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,当图像的增强次数大于等于最大增强次数后,输出图像:S5:输入待分类图像,设定增强次数p=0;

S6:将待分类图像输入VGG16卷积神经网络模型,获取待分类图像的第一概率向量,将待分类图像输入ResNet卷积神经网络模型,获取待分类图像的第二概率向量;

S7:融合第一概率向量和第二概率向量,得到融合概率向量,并获取待分类图像的图像类别,若图像类型为清晰,进入步骤S9,否则进入步骤S8;

S8:选取与图像类型对应的图像增强算法对待分类图像进行增强,获取增强图像,设定增强次数p=p+1,若p大于等于最大增强次数,进入步骤S9,否则将增强图像作为待分类图像输入步骤S6;

S9:输出图像。

7.根据权利要求1所述的一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,所述的VGG16卷积神经网络模型包含13个卷积层、3个全连接层和5个池化层。

8.根据权利要求1所述的一种基于模型融合和数据增强的低质图像分类增强方法,其特征在于,所述的S8中采用基于相机相应模型的低亮度图片增强算法对图像类型为低亮度图像的图像进行增强处理。

说明书 :

一种基于模型融合和数据增强的低质图像分类增强方法

技术领域

[0001] 本发明涉及低质图像分类增强方法,尤其是涉及一种基于模型融合和数据增强的低质图像分类增强方法。

背景技术

[0002] 相机在拍照时通常会因为光照环境较差或者自身不稳定等因素拍摄到低质图像,这类低质图像上会存在阴影、亮度低或者画面模糊的情况,导致图像细节丢失,难以对图像进行后续的识别分析等操作,处理这类图像通常的方式是采用图像增强的方法来提高低质图像的对比度,放大细节信息。
[0003] 在中国专利CN201610079472.X公开的一种极端天气条件下低质图像增强方法中,等提出了一种根据色度分量值区分雾霾图像和雨雪图像的分类增强方法。该方法采用纯物理学算法,能够区分的图像类别少且鲁棒性差,极容易出现误判等情况。在中国专利CN201811484514.3公开的一种恶劣天气下的成像识别方法及系统中,提出了一种对采集到的恶劣天气下的低质图像进行增强后再识别的方法,使用电子稳像算法消除图像的运动模糊或者用自适应图像去雾算法消除图像的云烟雾干扰,然后使用VGG16卷积神经网络对图像进行识别分类。但是该发明并未提及如何分辨采集到的图像是否为低质图像,且只采用一种增强算法对所有类别的低质图像进行增强处理,增强效果一般。

发明内容

[0004] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于模型融合和数据增强的低质图像分类增强方法。
[0005] 本发明的目的可以通过以下技术方案来实现:
[0006] 一种基于模型融合和数据增强的低质图像分类增强方法,包括以下步骤:
[0007] S1:建立图像集,图像集中包括清晰图像、模糊图像和低亮度图像;
[0008] S2:对图像集中的图像进行数据增强;
[0009] S3:构建VGG16卷积神经网络模型,通过图像集训练VGG16卷积神经网络模型;
[0010] S4:构建ResNet卷积神经网络模型,通过图像集训练ResNet卷积神经网络模型;
[0011] S5:输入待分类图像;
[0012] S6:将待分类图像输入VGG16卷积神经网络模型,获取待分类图像的第一概率向量,将待分类图像输入ResNet卷积神经网络模型,获取待分类图像的第二概率向量;
[0013] S7:融合第一概率向量和第二概率向量,得到融合概率向量,并获取待分类图像的图像类别,若图像类型为清晰,进入步骤S9,否则进入步骤S8;
[0014] S8:选取与图像类型对应的图像增强算法对待分类图像进行增强,获取增强图像,并将增强图像作为待分类图像输入步骤S6;
[0015] S9:输出图像。
[0016] 优选地,所述的第一概率向量为:
[0017] [λa1,λa2,λa3]
[0018] 其中,λa1,λa2,λa3分别为VGG16卷积神经网络模型中获取的图像分别为清晰图像、模糊图像和低亮度图像的概率,
[0019] 所述的第二概率向量为:
[0020] [λb1,λb2,λb3]
[0021] 其中,λb1,λb2,λb3分别为ResNet卷积神经网络模型中获取的图像分别为清晰图像、模糊图像和低亮度图像的概率,
[0022] 所述的融合概率向量为:
[0023] [λa1+λb1,λa2+λb2,λa3+λb3]
[0024] 所述的融合概率向量中的最大值代表的图像类型为待分类图像的图像类型。
[0025] 优选地,所述的VGG16卷积神经网络模型的分类器包含两个全连接层,其中第二个全连接层采用Softmax激活函数,并且第二个全连接层将由第一个全连接层的输入值映射到区间(0,1)之间,获取第一概率向量。
[0026] 优选地,所述的ResNet卷积神经网络模型的分类器包含两个全连接层,其中第二个全连接层采用Softmax激活函数,并且第二个全连接层将由第一个全连接层的输入值映射到区间(0,1)之间,获取第二概率向量。
[0027] 优选地,所述的数据增强为对图像数据随机进行翻转、旋转、缩放、裁剪、移位、添加噪声和修改对比度中的一个或多个操作。
[0028] 优选地,所述的步骤S2中数据增强为对图像数据进行水平旋转、竖直旋转,所述的步骤S2具体为:
[0029] S21:取图像的左下角顶点为原点O,建立xyz空间坐标系,所述图像的大小为a×b,所述的图像与xy平面重合;
[0030] S22:随机判定对图像进行水平旋转或不进行水平旋转,水平旋转或不水平旋转的概率均为0.5,若水平旋转,以(x=a/2,z=0)为转轴旋转图像180°,否则进入步骤S22;
[0031] S23:随机判定对图像进行竖直旋转或不进行竖直旋转,竖直旋转或不竖直旋转的概率均为0.5,若竖直旋转,以(y=b/2,z=0)为转轴旋转图像180°,完成数据增强,否则不进行竖直旋转,完成数据增强。
[0032] 优选地,当图像的增强次数大于最大增强次数后,输出图像:
[0033] S5:输入待分类图像,设定增强次数p=0;
[0034] S6:将待分类图像输入VGG16卷积神经网络模型,获取待分类图像的第一概率向量,将待分类图像输入ResNet卷积神经网络模型,获取待分类图像的第二概率向量;
[0035] S7:融合第一概率向量和第二概率向量,得到融合概率向量,并获取待分类图像的图像类别,若图像类型为清晰,进入步骤S9,否则进入步骤S8;
[0036] S8:选取与图像类型对应的图像增强算法对待分类图像进行增强,获取增强图像,设定增强次数p=p+1,若p大于等于最大增强次数,进入步骤S9,否则将增强图像作为待分类图像输入步骤S6;
[0037] S9:输出图像。
[0038] 优选地,所述的VGG16卷积神经网络模型包含13个卷积层、3个全连接层和5个池化层。
[0039] 优选地,所述的S8中采用基于GAN进行盲运动模糊移除算法对图像类型为模糊图像的图像进行增强处理。
[0040] 优选地,所述的S8中采用基于相机相应模型的低亮度图片增强算法对图像类型为低亮度图像的图像进行增强处理。
[0041] 与现有技术相比,本发明具有如下优点:
[0042] (1)与现有技术相比,本发明采用卷积神经网络进行图片的类别划分,相比传统的基于物理学的分类器其准确率要更高,同时采用数据增强以及模型融合两种方式来提升分类的准确率;
[0043] (2)本发明集成了专用于对模糊和低亮度两类图像进行增强的两类算法,能够有效地分类并还原图像的细节信息;
[0044] (3)为了防止一张图像上存在两类情况,本方法设定最大增强次数,对图像进行多次分类增强,实现最大程度的增强效果;
[0045] (4)利用随机图像数据增强的方式,对图像数据进行水平旋转、竖直旋转的数据增强,有效提高分类的准确率。

附图说明

[0046] 图1为本发明的流程图;
[0047] 图2为本发明的一种实施方式的流程图;
[0048] 图3为VGG16模型的结构图;
[0049] 图4为VGG16模型的块结构图;
[0050] 图5为残差单元的结构图;
[0051] 图6为ResNet模型的结构图;
[0052] 图7为DeblurGAN模型的结构图。

具体实施方式

[0053] 下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
[0054] 实施例
[0055] 一种基于模型融合和数据增强的低质图像分类增强方法,如图1所示,包括以下步骤:
[0056] S1:建立图像集。
[0057] 在本实施例的图像集中,图像集中包括清晰图像、模糊图像和低亮度图像三类图像,图像集包括训练集、测试集、验证集,训练集每类图像300张,测试集每类图像50张,验证集每类图像50张。
[0058] S2:对图像集中的图像进行数据增强。
[0059] 数据增强为对图像数据随机进行翻转、旋转、缩放、裁剪、移位、添加噪声和修改对比度中的一个或多个操作。
[0060] 本实施例中,步骤S2中数据增强为对图像数据进行水平旋转、竖直旋转,所述的步骤S2具体为:
[0061] S21:取图像的左下角顶点为原点O,建立xyz空间坐标系,所述图像的大小为a×b,所述的图像与xy平面重合;
[0062] S22:随机判定对图像进行水平旋转或不进行水平旋转,水平旋转或不水平旋转的概率均为0.5,若水平旋转,以(x=a/2,z=0)为转轴旋转图像180°,否则进入步骤S22;
[0063] S23:随机判定对图像进行竖直旋转或不进行竖直旋转,竖直旋转或不竖直旋转的概率均为0.5,若竖直旋转,以(y=b/2,z=0)为转轴旋转图像180°,完成数据增强,否则不进行竖直旋转,完成数据增强。
[0064] S3:构建VGG16卷积神经网络模型,通过图像集训练VGG16卷积神经网络模型。
[0065] 如图3、4所示,VGG16的模型结构包含13个卷积层(Convolutional Layer)、3个全连接层(Fully connected Layer)和5个池化层(Pool Layer)。其中的卷积层和池化层可以划分为不同的块(Block),从前往后编号依次为Block1‑Block5,每一个块中包含若干个卷积层和池化层,例如Block4中包含3个卷积层(Conv3‑512)和1个池化层(Maxpool);并且在同一块内,卷积层的通道数是相同的,例如:Block2中包含2个卷积层,每个卷积层用Conv2‑128表示,即卷积核为3×3×3,通道数是128;Block3中包含3个卷积层,每个卷积层用Conv3‑256表示,即卷积核为3×3×3,通道数是256。VGG16模型的输入结构是224×224×3,在模型中通道数翻倍,由64依次增加到128,再到256,直至512保持不变,不再翻倍,图像的高和宽变减半,由224→112→56→28→14→7。
[0066] S4:构建ResNet卷积神经网络模型,通过图像集训练ResNet卷积神经网络模型。
[0067] ResNet卷积神经网络通过残差学习解决了深度网络的退化问题:网络深度增加时,网络准确度出现饱和,甚至出现下降。如图5、6所示,ResNet模型的结构参考了VGG19结构,在其基础上进行了修改并通过短路机制加入了残差单元。
[0068] 残差单元有两层,其中第一层:
[0069] F(x)=W2σ(W1x)
[0070] 其中,σ表示非线性激活函数ReLu,W1和W2表示第一层内的两个权重。
[0071] 然后第一层通过短路连接第二层,第二层ReLu函数获得输出y,
[0072] y=F(x)+x
[0073] 其中,F(x)即为第一层的输出。
[0074] ResNet的特点主要体现在直接使用卷积核大小为2的卷积进行下采样,并采用全局平均池化层替换了全连接层。ResNet网络与普通的网络相比每两层之间增强加了短路机制,这样就形成了残差学习。
[0075] S5:输入待分类图像;
[0076] S6:将待分类图像输入VGG16卷积神经网络模型,获取待分类图像的第一概率向量,将待分类图像输入ResNet卷积神经网络模型,获取待分类图像的第二概率向量。
[0077] S7:融合第一概率向量和第二概率向量,得到融合概率向量,并获取待分类图像的图像类别,若图像类型为清晰,进入步骤S9,否则进入步骤S8。
[0078] 在发明采用对VGG16卷积神经网络模型、ResNet卷积神经网络模型进行模型融合。模型融合即将两个或多个基础模型预测出的概率向量直接相加,取相加后概率最高的那一类作为图像的预测类别。
[0079] 本实施例中,采用Onehot编码形式表示概率向量。Onehot编码是一种神经网络中常用的类别标签编码形式,将值为整数的类别标签转换二进制,标签值的索引标记为1,其他的则0。本实施例中,有清晰图像、模糊图像和低亮度图像3个类别标签,分别对应标签值0、1、2。标签值0经过One‑Hot编码后转换为[1,0,0],标签值1转换为[0,1,0],标签值2转换为[0,0,1]。
[0080] 在本实施例中两个模型分类器均包括两个全连接层,并且其中第二个全连接层采用Softmax激活函数,并且第二个全连接层将由第一个全连接层的输入值映射到区间(0,1)之间,获取第一概率向量、第二概率向量。具体地,Softmax函数将第一个全连接层的输入值映射到区间(0,1)之间,形成如[λ1,λ2,λ3]的概率向量,λi为每一类的概率,其和为1,通常取λi中值最大的作为预测的类别。
[0081] Softmax函数的公式为:
[0082]
[0083] 其中,Zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数。
[0084] 本实施例中,在本实施例中采用将预训练好的VGG16卷积神经网络模型和ResNet卷积神经网络模型分别输出第一概率向量[λa1,λa2,λa3]和第二概率向量[λb1,λb2,λb3]。
[0085] 其中,其中,λa1,λa2,λa3分别为VGG16卷积神经网络模型中获取的图像分别为清晰图像、模糊图像和低亮度图像的概率,λb1,λb2,λb3分别为ResNet卷积神经网络模型中获取的图像分别为清晰图像、模糊图像和低亮度图像的概率。
[0086] 将两个概率向量相加得到融合概率向量
[0087] [λa1+λb1,λa2+λb2,λa3+λb3]
[0088] 融合概率向量中的最大值代表的图像类型为待分类图像的图像类型。
[0089] S8:选取与图像类型对应的图像增强算法对待分类图像进行增强,获取增强图像,并将增强图像作为待分类图像输入步骤S6。
[0090] 具体地,采用基于GAN进行盲运动模糊移除算法对图像类型为模糊图像的图像进行增强处理,采用基于相机相应模型的低亮度图片增强算法对图像类型为低亮度图像的图像进行增强处理。
[0091] 进一步地,基于GAN进行盲运动模糊移除算法:
[0092] 该算法是通过GAN网络将图像模糊去除视为一种端到端的任务,通过对模糊图像和清晰图像的学习,使用生成器根据模糊图像自动生成清晰图像。在该算法中盲去模糊的目标是在没有关于模糊核的情况下,给定模糊图像IB,复原清晰图像Is,DeblurGAN采用生成器进行去模糊,在训练过程中引入辨别网络通过对抗方式进行训练学习。
[0093] 如图7所示,生成器包含两个下采样卷积模块、9个残差模块(包含一个卷积、IN以及ReLU)以及两个上采样转置卷积模块,同时还引入全局残差连接。这种结构可以使得训练更快且同时具有更好的性能。除了生成器外,该算法在训练过程中还定义了一个判别器,采用带惩罚项的WGAN(Wasserstein GAN)进行对抗训练。
[0094] 该算法的损失函数包含两部分:内容损失和对抗性损失,公式为:
[0095] L=LCAN+λLx
[0096] 其中,LGAN为对抗损失,Lx为内容损失,λ为权重。
[0097] 在对抗损失中,使用WGAN‑GP作为惩罚函数,损失的计算式为:
[0098]
[0099] 其中,IB为输入的模糊图像, 为生成器, 为判别网络。
[0100] 内容损失中采用感知损失,是基于生成的和目标图像CNN特征映射的差异,其公式为:
[0101]s B
[0102] 其中,I为生成的图像,I为输入的模糊图像, 为生成器,φi,j是在VGG19网络中的第i个最大池化层之前通过第j个卷积(激活之后)获得的特征图,Wi,j和Hi,j是维度功能图。
[0103] 进一步地,基于相机相应模型的低亮度图片增强算法:
[0104] 对于相机拍摄到的图片而言,其像素值并非是正比于物体反射的亮度值。对于从相机感光元件感受到的亮度值到图像实际像素值之间的非线性变换函数,称之为相机响应函数(Camera Response Function,CRF)。该算法首先通过分析不同曝光度的图片之间的关系等到一个相机响应模型,然后利用图片亮度分量估计方法得到图像的曝光对比图,最后使用相机响应模型和曝光对比图来对低亮度图片进行增强。
[0105] 将相机响应模型定义为:
[0106] P=f(E)
[0107] 其中E是图片的辐照度,P是图片的像素值,f应当满足:
[0108]
[0109] 该算法中使用亮度变换函数(Brightness Transform Function,BTF),来估计f。
[0110] BTF是一个对于相同场景但是曝光度不同的两幅图之间的映射函数:
[0111] R=g(P0,k)
[0112] 其中P1和P0是同一场景下不同曝光度的图像,k为曝光比。
[0113] 因此CRM可以由g(f(E),k)=f(kE)计算得到。
[0114] S9:输出图像。
[0115] 本实施例中实验环境为:系统Win10,显卡Tesla  P100,深度学习框架Tensorflow2.0,VGG16、ResNet模型和融合后的模型准确如下表所示,融合模型的准确率要高于任意一种单一模型的准确率,如下表所示。
[0116]
[0117] 本发明的一种实施方式中,经过上述两种增强算法处理后的图像仍然可能存在模糊或者低亮度的情况,为防止这种情况发生,如图2所示,设定最大增强次数,当图像的增强次数大于等于最大增强次数后,输出图像:
[0118] S1:建立图像集,图像集中包括清晰图像、模糊图像和低亮度图像;
[0119] S2:对图像集中的图像进行数据增强;
[0120] S3:构建VGG16卷积神经网络模型,通过图像集训练VGG16卷积神经网络模型;
[0121] S4:构建ResNet卷积神经网络模型,通过图像集训练ResNet卷积神经网络模型;
[0122] S5:输入待分类图像,设定增强次数p=0;
[0123] S6:将待分类图像输入VGG16卷积神经网络模型,获取待分类图像的第一概率向量,将待分类图像输入ResNet卷积神经网络模型,获取待分类图像的第二概率向量;
[0124] S7:融合第一概率向量和第二概率向量,得到融合概率向量,并获取待分类图像的图像类别,若图像类型为清晰,进入步骤S9,否则进入步骤S8;
[0125] S8:选取与图像类型对应的图像增强算法对待分类图像进行增强,获取增强图像,设定增强次数p=p+1,若p大于等于最大增强次数,进入步骤S9,否则将增强图像作为待分类图像输入步骤S6;
[0126] S9:输出图像。
[0127] 上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。