一种基于深度特征的实时图像语义分割方法转让专利

申请号 : CN202110767097.9

文献号 : CN113537228B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李爽金一姜天姣赵茜李雅宁梁晓虎祝瑞辉张衡黄璐贾浩男程建强陈冲

申请人 : 中国电子科技集团公司第五十四研究所

摘要 :

本发明公开了一种基于深度特征的实时图像语义分割方法,涉及计算机视觉领域。该方法在双分支网络的浅层部分引入注意力机制,用来更加高效地获取特征,提高模型计算效率,并减少噪声的引入。使用Adam与LookAhead融合的优化器在训练过程中进行学习,减少模型收敛过程中不必要的计算,能够更快地收敛到目标条件。本发明能够显著减少计算开销,使得模型能够进行实时语义分割。

权利要求 :

1.一种基于深度特征的实时图像语义分割方法,其特征在于,包括以下步骤:

(1)将训练集待分割图像进行数据的标准化和图像的裁剪变换,将处理后的待分割图像输入包括通道注意力模块和空间注意力模块的图像语义分割网络,经过前向传播得到语义分割后的图像;

(2)计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,返回步骤(1)直至达到设定的迭代次数,得到训练好的图像语义分割网络;

(3)加载测试集的数据,通过训练好的图像语义分割网络进行处理,得到图像语义分割结果,并计算评估指标,根据评估指标进行图像语义分割网络性能的判定,若不满足预期要求,则返回步骤(1),若达到预期的性能,则保存模型;

其中,步骤(1)中图像语义分割网络的前向传播具体为:将输入的待分割图像h*w*c,经过一个标准卷积层和一个深度卷积层,然后进入注意力学习模块,得到引入了注意力机制的特征表示,经过注意力学习模块后,进入深度可分离卷积层,输出分为两个支路;一个支路依次经bottleneck模块和金字塔池化模块,再经过上采样处理、深度卷积层和普通卷积层,得到输出特征,另一个支路经过一个普通卷积层,得到输出特征;将两个支路的输出特征相加,并使用激活函数进行非线性变换;最后依次通过两个深度可分离卷积、一个卷积核大小为1×1的卷积以及一个上采样操作,得到分割后的图像;其中,h为图像高度,w为图像宽度,c为图像通道数。

2.根据权利要求1所述的一种基于深度特征的实时图像语义分割方法,其特征在于,bottleneck模块内部通道数与输入端通道数的比值设定为6,步长为2,使用三个1×1的卷积核和三个3×3的卷积核。

3.根据权利要求1所述的一种基于深度特征的实时图像语义分割方法,其特征在于,注意力学习模块包括:通道注意力学习模块和空间注意力学习模块;输入特征进入通道注意力学习模块,先分别进行全局最大池化和平均池化,得到两个1*1*C的通道描述,C为通道数,再将两个通道描述分别对应送入两层的全连接层,分别得到两个特征,然后再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重Mc(F):Mc(F)=σ(MLP(MaxPool(F)+MLP(AvgPool(F)))

将权重Mc(F)与输入特征相乘,得到中间特征,将中间特征输入空间注意力学习模块,在空间注意力学习模块中,先进行一个通道维度的最大池化和平均池化得到两个h*w*1的通道描述,并将这两个描述按照通道拼接在一起,然后经过一个卷积层,并通过Sigmoid激活函数后得到权重Ms(F):

7*7

Ms(F)=σ(f ([MaxPool(F),AvgPool(F)]))

其中,F为输入特征,MLP表示全连接层;

最后将权重Ms(F)与中间特征相乘,得到引入了注意力机制的特征表示。

4.根据权利要求3所述的一种基于深度特征的实时图像语义分割方法,其特征在于,两层的全连接层中第一层神经元个数为C/r,r为缩减比例,激活函数为ReLU,第二层神经元个数为C。

5.根据权利要求1所述的一种基于深度特征的实时图像语义分割方法,其特征在于,步骤(2)中计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,具体为:使用交叉熵损失函数计算损失结果,公式如下:

其中,j表示需要推理的像素点,yi表示正确值即目标图像,Pj表示预测值即语义分割后的图像;

得到损失函数值后,采用Adam与LookAhead融合的优化器通过反向传播更新图像语义分割网络参数。

说明书 :

一种基于深度特征的实时图像语义分割方法

技术领域

[0001] 本发明涉及计算机视觉领域,特别是图像语义分割领域,提供了一种基于深度特征的实时图像语义分割方法。

背景技术

[0002] 图像的语义分割问题是一种非常典型的计算机视觉问题,对场景理解来说至关重要,具有广泛的应用前景。随着科学技术的进步,医学影像处理、道路场景理解,甚至游戏画面处理等需要更加快速的语义分割方法的场景越来越多。关于图像语义分割任务,目前主流的方法有两类:第一类是传统的语义分割方法,包括基于阈值、区域、边缘检测的分割方法和基于遗传算法的分割方法等,这类方法较为简单易懂,但容易受到图像中噪声和光照风因素的影响而导致分割效果较差,抑或不能得到区域的分类信息等;第二类则是目前研究较为热门的深度学习方法,随着神经网络的发展和计算机计算性能的提升,卷积神经网络得到了快速发展,全卷积神经网络的提出则使得深度学习方法在计算机视觉领域突飞猛进。在此基础上,SegNet模型采用了对称的编码器‑解码器结构,在训练过程中记录了下采样时特征的位置,并在上采样时进行还原,提高了模型输出的分辨率;空洞卷积通过在卷积核之中插入“空洞”以使其增大,这样便在不增加参数数量的基础上扩大了输出单元的感受野面积;RefineNet模型可以使用各个层级的特征,多路搜集图像在进行采样时的信息,尽可能地对全局不同层次的特征进行利用,并采用增加远距离残差连接的方法来进行语义分割;DeepLab v3加入了Batch Normalization层,并设计了并行和串行的空洞卷积模块来对物体进行多尺度分类。
[0003] 但是现有图像进行语义分割的方法参数量大,在模型的训练过程中,需要较多的硬件资源和较长的时间消耗,给测试环节带来了更多的时间消耗,优化算法在训练过程中不是每次迭代都向着整体的最优化方向,并且由于更新比较频繁,会造成损失函数有比较大的震荡,噪音较多,导致目前基于深度学习的语义分割技术实时性不足,难以广泛应用。

发明内容

[0004] 有鉴于此,本发明提出一种基于深度特征的实时图像语义分割方法,该方法计算开销小、特征提取能力高、收敛速度快。
[0005] 为了实现上述目的,本发明采用的技术方案为:
[0006] 一种基于深度特征的实时图像语义分割方法,包括以下步骤:
[0007] (1)将训练集待分割图像进行数据的标准化和图像的裁剪变换,将处理后的待分割图像输入包括通道注意力模块和空间注意力模块的图像语义分割网络,经过前向传播得到语义分割后的图像;
[0008] (2)计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,返回步骤(1)直至达到设定的迭代次数,得到训练好的图像语义分割网络;
[0009] (3)加载测试集的数据,通过训练好的图像语义分割网络进行处理,得到图像语义分割结果,并计算评估指标,根据评估指标进行图像语义分割网络性能的判定,若不满足预期要求,则返回步骤(1),若达到预期的性能,则保存模型。
[0010] 进一步的,步骤(1)中图像语义分割网络的前向传播具体为:将输入的待分割图像h*w*c,经过一个标准卷积层和一个深度卷积层,然后进入注意力学习模块,得到引入了注意力机制的特征表示,经过注意力学习模块后,进入深度可分离卷积层,输出分为两个支路;一个支路依次经bottleneck模块和金字塔池化模块,再经过上采样处理、深度卷积层和普通卷积层,得到输出特征,另一个支路经过一个普通卷积层,得到输出特征;将两个支路的输出特征相加,并使用激活函数进行非线性变换;最后依次通过两个深度可分离卷积、一个卷积核大小为1×1的卷积以及一个上采样操作,得到分割后的图像;其中,h为图像高度,w为图像宽度,c为图像通道数。
[0011] 进一步的,bottleneck模块内部通道数与输入端通道数的比值设定为6,步长为2,使用三个1×1的卷积核和三个3×3的卷积核。
[0012] 进一步的,注意力学习模块包括:通道注意力学习模块和空间注意力学习模块;输入特征进入通道注意力学习模块,先分别进行全局最大池化和平均池化,得到两个1*1*C的通道描述,C为通道数,再将两个通道描述分别对应送入两层的全连接层,分别得到两个特征,然后再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重Mc(F):
[0013] Mc(F)=σ(MLP(MaxPool(F)+MLP(AvgPool(F)))
[0014] 将权重Mc(F)与输入特征相乘,得到中间特征,将中间特征输入空间注意力学习模块,在空间注意力学习模块中,先进行一个通道维度的最大池化和平均池化得到两个h*w*1的通道描述,并将这两个描述按照通道拼接在一起,然后经过一个卷积层,并通过Sigmoid激活函数后得到权重Ms(F):
[0015] Ms(F)=σ(f7*7([MaxPool(F),AvgPool(F)]))
[0016] 其中,F为输入特征,MLP表示全连接层;
[0017] 最后将权重Ms(F)与中间特征相乘,得到引入了注意力机制的特征表示。
[0018] 进一步的,两层的全连接层中第一层神经元个数为C/r,r为缩减比例,激活函数为ReLU,第二层神经元个数为C。
[0019] 进一步的,步骤(2)中计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,具体为:
[0020] 使用交叉熵损失函数计算损失结果,公式如下:
[0021]
[0022] 其中,j表示需要推理的像素点,yi表示正确值即目标图像,Pj表示预测值即语义分割后的图像;
[0023] 得到损失函数值后,采用Adam与LookAhead融合的优化器通过反向传播更新图像语义分割网络参数。
[0024] 本发明相比现有技术的有益效果为:
[0025] (1)本发明提出一种新的基于深度特征的实时语义分割注意力学习网络,该网络能够在提取浅层全局特征时应用注意力机制,将通道注意力模块和空间注意力模块串联,获得重点关注区域,减少了网络模型所需要的参数量,有效地降低了训练时间以及对于硬件的消耗。
[0026] (2)本发明提出一种在反向传播中更加高效的优化器,将Adam优化器融入LookAhead算法,通过Adam优化器生成的快速权重序列来选择搜索方向计算权重更新,慢速权重滞后更新为模型提供了更加长期的稳定性,提高了模型的收敛速度。

附图说明

[0027] 图1为本发明实施例中分割方法流程图。
[0028] 图2为本发明实施例中网络模型结构图。
[0029] 图3为本发明实施例中注意力学习模块图。
[0030] 图4为本发明实施例中Adam优化器流程图。
[0031] 图5为本发明实施例中LookAhead算法流程图。

具体实施方式

[0032] 下面结合附图对本发明作更进一步的说明。如图1所示为本发明实施例公开的一种基于深度特征的实时图像语义分割方法,具体实现包括以下步骤:
[0033] 步骤1:将训练集待分割图像进行数据的标准化和图像的裁剪变换,将处理后的待分割图像输入包括通道注意力模块和空间注意力模块的图像语义分割网络,经过前向传播得到语义分割后的图像;
[0034] 如图2所示,图像语义分割网络的前向传播具体为:将输入的待分割图像h*w*c,经过一个标准卷积层和一个深度卷积层,然后进入注意力学习模块,得到引入了注意力机制的特征表示,经过注意力学习模块后,进入深度可分离卷积层,输出分为两个支路;一个支路依次经bottleneck模块和金字塔池化模块,再经过上采样处理、深度卷积层和普通卷积层,得到输出特征,另一个支路经过一个普通卷积层,得到输出特征;将两个支路的输出特征相加,并使用激活函数进行非线性变换;最后依次通过两个深度可分离卷积、一个卷积核大小为1×1的卷积以及一个上采样操作,得到分割后的图像;其中,h为图像高度,w为图像宽度,c为图像通道数。
[0035] 其中,bottleneck模块内部通道数与输入端通道数的比值设定为6,步长为2,使用三个1×1的卷积核和三个3×3的卷积核。
[0036] 如图3所示,注意力学习模块包括:通道注意力学习模块和空间注意力学习模块;输入特征进入通道注意力学习模块,先分别进行全局最大池化和平均池化,得到两个1*1*C的通道描述,C为通道数,再将两个通道描述分别对应送入两层的全连接层,分别得到两个特征,然后再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重Mc(F):
[0037] Mc(F)=σ(MLP(MaxPool(F)+MLP(AvgPool(F)))
[0038] 将权重Mc(F)与输入特征相乘,得到中间特征,将中间特征输入空间注意力学习模块,在空间注意力学习模块中,先进行一个通道维度的最大池化和平均池化得到两个h*w*1的通道描述,并将这两个描述按照通道拼接在一起,然后经过一个7×7卷积层,并通过Sigmoid激活函数后得到权重Ms(F):
[0039] Ms(F)=σ(f7*7([MaxPool(F),AvgPool(F)]))
[0040] 其中,F为输入特征,MLP表示全连接层;
[0041] 最后将权重Ms(F)与中间特征相乘,得到引入了注意力机制的特征表示。
[0042] 步骤2:计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,返回步骤(1)直至达到设定的迭代次数,得到训练好的图像语义分割网络;
[0043] 使用交叉熵损失函数计算损失结果,公式如下:
[0044]
[0045] 其中,j表示需要推理的像素点,yi表示正确值即目标图像,Pj表示预测值即语义分割后的图像;
[0046] 得到损失函数值后,采用Adam与LookAhead融合的优化器通过反向传播更新图像语义分割网络参数。Adam优化器流程如图4所示。在Adam的基础上,将其融合入LookAhead算法来减小方差,LookAhead的算法流程如图5所示,快速权重采用Adam算法更新,在完成梯度的反向传播后开始新的一轮学习,直到达到预设迭代次数,达到预设迭代次数后对模型效果进行测试,若未达到目标要求,则调整模型的超参数配置,若达到目标要求,则保存模型。
[0047] 步骤3:加载测试集的数据,通过训练好的图像语义分割网络进行处理,得到图像语义分割结果,并计算评估指标,根据评估指标进行图像语义分割网络性能的判定,若不满足预期要求,则返回步骤(1),若达到预期的性能,则保存模型;
[0048] 完成基于深度特征的实时图像语义分割。