一种注意力机制引导的递进式划分人体解析模型及方法转让专利

申请号 : CN202010081219.4

文献号 : CN111275694A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邵杰黄茜曹坤涛徐行

申请人 : 电子科技大学宜宾电子科技大学研究院

摘要 :

本发明公开了一种注意力机制引导的递进式划分人体解析模型及方法,提出的模型着重探索了显著性检测对于人体解析的增强作用,以及注意力机制对于人体解析的有效性。在网络结构上,构建了一个特征提取模块,有效提取特征信息,并融合多维度特征,增强了人体解析的效果;设计了适应性注意力模块,为特征进行位置注意力加权,并提供了融合不同水平特征的有效融合思路;最后以由底至上的方式整合了显著性检测和人体解析到一个端到端的网络结构中,并在各分支应用上述模块,获得了统一化的有效结构。性能超越了目前已知的方法,展现了最优人体解析效果。

权利要求 :

1.一种注意力机制引导的递进式划分人体解析模型,其特征在于,包括:残差神经网络ResNet-101、显著性检测子系统和人体解析子系统;

所述残差神经网络ResNet-101为结构型神经网络,用于处理人体图像,得到浅层低水平特征图和深层高水平特征图;其输出块Block1和输出块Block2与显著性检测子系统通信连接,用于将浅层低水平特征图输入到显著性检测子系统;其输出块Block3和输出块Block4与人体解析子系统通信连接,用于将深层高水平特征图输入到人体解析子系统;

所述显著性检测子系统用于对浅层低水平特征图进行显著性预测,得到二分类显著性预测图;

所述人体解析子系统用于对深层高水平特征图进行人体解析预测,得到人体解析预测图。

2.根据权利要求1所述的注意力机制引导的递进式划分人体解析模型,其特征在于,所述显著性检测子系统包括:卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2;

所述卷积层Conv1为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block1传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block1通信连接,其输出端与适应性注意力模块GAM1的输入端A通信连接;

所述卷积层Conv2为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block2通信连接,其输出端与上采样模块1的输入端通信连接;

所述上采样模块1用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图在降维处理后的图像数据进行上采样处理,其输出端与适应性注意力模块GAM1的输入端B通信连接;

所述适应性注意力模块GAM1用于提取注意力特征,其输出端与卷积层Conv3通信连接,并与人体解析子系统通信连接用于特征增强;

所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征,得到二分类显著性预测图;所述卷积层Conv3为3×3卷积层,其输出端与卷积层Conv4的输入端通信连接;所述卷积层Conv4为1×1卷积层,其输出端与上采样模块2的输入端通信连接;所述上采样模块2的输出端作为显著性检测子系统的处理结果输出端口,输出该系统运算得到的二分类显著性预测图。

3.根据权利要求2所述的注意力机制引导的递进式划分人体解析模型,其特征在于,所述人体解析子系统包括:特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6;

所述特征提取模块FEM1用于对残差神经网络ResNet-101的输出块Block3传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block3通信连接,其输出端与适应性注意力模块GAM2的输入端A通信连接;

所述特征提取模块FEM2用于对残差神经网络ResNet-101的输出块Block4传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block4通信连接,其输出端与适应性注意力模块GAM2的输入端B通信连接;

所述适应性注意力模块GAM2用于处理多维度上下文信息,得到有效加权特征,其输出端与上采样模块3的输入端通信连接;

所述上采样模块3用于对有效加权特征进行上采样处理,其输出端与加法模块1的输入端A通信连接;

所述加法模块1用于对适应性注意力模块GAM1提取到的注意力特征和适应性注意力模块GAM2得到的有效加权特征按元素进行加操作,以融合适应性注意力模块GAM1和适应性注意力模块GAM2提供的特征图,突出目标区域并提升类之间的紧凑性;其输入端B与适应性注意力模块GAM1的输出端通信连接,其输出端与卷积层Conv5的输入端通信连接;

所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征,得到人体解析预测图;所述卷积层Conv5为3×3卷积层,其输出端与卷积层Conv6的输入端通信连接;所述卷积层Conv6为1×1卷积层,其输出端与上采样模块4的输入端通信连接;所述上采样模块4的输出端作为人体解析子系统的处理结果输出端口,输出该系统运算得到的人体解析预测图。

4.根据权利要求3所述的注意力机制引导的递进式划分人体解析模型,其特征在于,所述特征提取模块FEM1和特征提取模块FEM2均包括:卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11;

所述卷积层Conv11的输入端与卷积层Conv12的输入端、卷积层Conv13输入端以及卷积层Conv14的输入端通信连接,并作为适应性注意力模块GAM1的输入端和适应性注意力模块GAM2的输入端;所述卷积层Conv11的输出端与卷积层Conv15的输入端通信连接;所述卷积层Conv12的输出端与卷积层Conv16的输入端通信连接;所述卷积层Conv13的输出端与卷积层Conv17的输入端通信连接;所述卷积层Conv14的输出端与加法模块11的输入端A通信连接,所述卷积层Conv15的输出端与加法模块11的输入端B通信连接,所述卷积层Conv16的输出端与加法模块11的输入端C通信连接,所述卷积层Conv17的输出端与加法模块11的输入端D通信连接;所述加法模块11的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端;

所述卷积层Conv11为3×3空洞卷积层,其空洞卷积率为3;

所述卷积层Conv12为3×3空洞卷积层,其空洞卷积率为8;

所述卷积层Conv13为3×3空洞卷积层,其空洞卷积率为12;

所述卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17均为1×1卷积层。

5.根据权利要求3所述的注意力机制引导的递进式划分人体解析模型,其特征在于,所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括:卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21;

所述卷积层Conv21为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端A和适应性注意力模块GAM2的输入端A,其输出端与全局均值池化层21的输入端通信连接;

所述卷积层Conv22为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端B和适应性注意力模块GAM2的输入端B,其输出端与全局池化层22的输入端通信连接;

所述全局池化层21的输出端与加法模块21的输入端A通信连接,所述全局池化层22的输出端与加法模块21的输入端B通信连接;

所述加法模块21的输出端与Softmax层的输入端通信连接;

所述Softmax层的输出端与乘法模块21的输入端通信连接;

所述乘法模块21的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端。

6.一种注意力机制引导的递进式划分人体解析方法,其特征在于,包括以下步骤:

S1、从大数据平台中获取已知对应的二分类显著性预测图和人体解析预测图的人体图像,构成训练数据集和测试数据集;

S2、通过训练数据集训练注意力机制引导的递进式划分人体解析模型,得到训练完成的注意力机制引导的递进式划分人体解析模型;

S3、通过测试数据集对训练完成的注意力机制引导的递进式划分人体解析模型进行验证,得到验证完成的注意力机制引导的递进式划分人体解析模型;

S4、通过验证完成的注意力机制引导的递进式划分人体解析模型对人体图像进行预测和解析,得到与人体图像相应的二分类显著性预测图和人体解析预测图。

7.根据权利要求6所述的注意力机制引导的递进式划分人体解析方法,其特征在于,所述步骤S2包括以下步骤:S21、对训练数据集进行预处理;

S22、设定注意力机制引导的递进式划分人体解析模型的初始参数和训练规则;

S23、通过反向传播法,根据预处理后的训练数据集,对注意力机制引导的递进式划分人体解析模型内的各模块进行参数迭代。

8.根据权利要求7所述的注意力机制引导的递进式划分人体解析方法,其特征在于,所述步骤S21包括以下内容:对训练数据集中的数据采用0.5~1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。

9.根据权利要求7所述的注意力机制引导的递进式划分人体解析方法,其特征在于,所述步骤S22中的初始参数和训练规则包括以下表达式:LAPPNet=Lparsing+aLsailency (2)

α=1 (3)

power=0.9 (4)

base_lr=0.007 (5)

其中,式1为学习率迭代规则,lr为当前学习率,base_lr为初始学习率,iter为当前迭代次数,max_iter为迭代总次数,power为指数参数;式2为训练规则的损失函数,Lparsing为分割预测图和分割标注图的交叉熵损失,Lsailency为显著性预测图和真实标注图的交叉熵损失,α为用以平衡分割损失和显著性损失的比例参数。

说明书 :

一种注意力机制引导的递进式划分人体解析模型及方法

技术领域

[0001] 本发明属于图像处理领域,具体涉及一种注意力机制引导的递进式划分人体解析模型及方法。

背景技术

[0002] 理解人体结构是计算机视觉中一个至关重要但具有挑战性的课题,而人体解析是实现这一目标的任务之一。人体解析是一个密集预测任务,其旨在精确定位人体并将其进一步划分为像素级的多个语义区域。近几年,人体解析被广泛应用于其他同样针对于分析人体的任务,比如行人再识别、姿态估计、人体图像生成。
[0003] 在近期工作中,研究人员们提出了各种方法来提升人体解析网络的表现力。其中,一种典型的方法是利用其他相关任务提供的额外域信息。例如,一些工作(Fangting Xia,Peng Wang,Xianjie Chen and Alan L.Yuille.Joint Multi-person pose estimation and semantic part segmentation[C].CVPR,2017:6080—6089.和XuechengNie,Jiashi Feng and Shuicheng Yan.Mutual learning to adapt for joint human parsing and pose estimation[C].ECCV,2018:519--534)通过添加关节结构损失或者动态更新从姿势估计任务中学到的模型约束来研究姿态结构对人体解析的引导性。另有一些工作(Ke Gong,Xiaodan Liang,Yicheng Li,Yimin Chen,Ming Yang,Liang Lin.Instance-level human parsing via part grouping network[C].ECCV,2018:805--822.和Tao Ruan,Ting Liu,Zilong Huang,Yunchao Wei,Shikui Wei,Yao Zhao.Devil in the Details:Towards Accurate Single and Multiple Human Parsing[C].AAAI,2019:4814-4821)提出在一个统一的网络中融合边缘特征。尽管这些信息融合带来了令人满意的改进,但由于不一致的优化目标使得在同一网络中训练多个任务可能存在不兼容性,这在一定程度上减弱了整体结构的预测能力。
[0004] 在以前的工作中(Ke Gong,Xiaodan Liang,Dongyu Zhang,Xiaohui Shen and Liang Lin.Look into Person:Self-Supervised Structure-Sensitive Learning and a New Benchmark for Human Parsing[C].CVPR,2017:6757--6765.和Xiaodan Liang,Ke Gong,Xiaohui Shen and Liang Lin.Look into Person:Joint Body Parsing&Pose Estimation Networkand a New Benchmark[J].TPAMI,2019:41(4)871--885),运用注意力机制的方法并未探索针对人体解析任务的适应性注意力模块,只是简单沿用了通用语义分割的一些注意力模块,因此不能很好地提炼细致的人体部位。

发明内容

[0005] 针对现有技术中的上述不足,本发明提供的一种注意力机制引导的递进式划分人体解析模型及方法解决了现有技术不能较为准确地进行人体部位预测和解析以及显著性分析的问题。
[0006] 为了达到上述发明目的,本发明采用的技术方案为:
[0007] 一种注意力机制引导的递进式划分人体解析模型,包括:残差神经网络ResNet-101、显著性检测子系统和人体解析子系统;
[0008] 所述残差神经网络ResNet-101为结构型神经网络,用于处理人体图像,得到浅层低水平特征图和深层高水平特征图;其输出块Block1和输出块Block2与显著性检测子系统通信连接,用于将浅层低水平特征图输入到显著性检测子系统;其输出块Block3和输出块Block4与人体解析子系统通信连接,用于将深层高水平特征图输入到人体解析子系统;
[0009] 所述显著性检测子系统用于对浅层低水平特征图进行显著性预测,得到二分类显著性预测图;
[0010] 所述人体解析子系统用于对深层高水平特征图进行人体解析预测,得到人体解析预测图。
[0011] 进一步地,所述显著性检测子系统包括:卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2;
[0012] 所述卷积层Conv1为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block1传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block1通信连接,其输出端与适应性注意力模块GAM1的输入端A通信连接;
[0013] 所述卷积层Conv2为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block2通信连接,其输出端与上采样模块1的输入端通信连接;
[0014] 所述上采样模块1用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图在降维处理后的图像数据进行上采样处理,其输出端与适应性注意力模块GAM1的输入端B通信连接;
[0015] 所述适应性注意力模块GAM1用于提取注意力特征,其输出端与卷积层Conv3通信连接,并与人体解析子系统通信连接用于特征增强;
[0016] 所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征,得到二分类显著性预测图;所述卷积层Conv3为3×3卷积层,其输出端与卷积层Conv4的输入端通信连接;所述卷积层Conv4为1×1卷积层,其输出端与上采样模块2的输入端通信连接;所述上采样模块2的输出端作为显著性检测子系统的处理结果输出端口,输出该系统运算得到的二分类显著性预测图。
[0017] 进一步地,所述人体解析子系统包括:特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6;
[0018] 所述特征提取模块FEM1用于对残差神经网络ResNet-101的输出块Block3传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block3通信连接,其输出端与适应性注意力模块GAM2的输入端A通信连接;
[0019] 所述特征提取模块FEM2用于对残差神经网络ResNet-101的输出块Block4传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block4通信连接,其输出端与适应性注意力模块GAM2的输入端B通信连接;
[0020] 所述适应性注意力模块GAM2用于处理多维度上下文信息,得到有效加权特征,其输出端与上采样模块3的输入端通信连接;
[0021] 所述上采样模块3用于对有效加权特征进行上采样处理,其输出端与加法模块1的输入端A通信连接;
[0022] 所述加法模块1用于对适应性注意力模块GAM1提取到的注意力特征和适应性注意力模块GAM2得到的有效加权特征按元素进行加操作,以融合适应性注意力模块GAM1和适应性注意力模块GAM2提供的特征图,突出目标区域并提升类之间的紧凑性;其输入端B与适应性注意力模块GAM1的输出端通信连接,其输出端与卷积层Conv5的输入端通信连接;
[0023] 所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征,得到人体解析预测图;所述卷积层Conv5为3×3卷积层,其输出端与卷积层Conv6的输入端通信连接;所述卷积层Conv6为1×1卷积层,其输出端与上采样模块4的输入端通信连接;所述上采样模块4的输出端作为人体解析子系统的处理结果输出端口,输出该系统运算得到的人体解析预测图。
[0024] 进一步地,所述特征提取模块FEM1和特征提取模块FEM2均包括:卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11;
[0025] 所述卷积层Conv11的输入端与卷积层Conv12的输入端、卷积层Conv13输入端以及卷积层Conv14的输入端通信连接,并作为适应性注意力模块GAM1的输入端和适应性注意力模块GAM2的输入端;所述卷积层Conv11的输出端与卷积层Conv15的输入端通信连接;所述卷积层Conv12的输出端与卷积层Conv16的输入端通信连接;所述卷积层Conv13的输出端与卷积层Conv17的输入端通信连接;所述卷积层Conv14的输出端与加法模块11的输入端A通信连接,所述卷积层Conv15的输出端与加法模块11的输入端B通信连接,所述卷积层Conv16的输出端与加法模块11的输入端C通信连接,所述卷积层Conv17的输出端与加法模块11的输入端D通信连接;所述加法模块11的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端;
[0026] 所述卷积层Conv11为3×3空洞卷积层,其空洞卷积率为3;
[0027] 所述卷积层Conv12为3×3空洞卷积层,其空洞卷积率为8;
[0028] 所述卷积层Conv13为3×3空洞卷积层,其空洞卷积率为12;
[0029] 所述卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17均为1×1卷积层。
[0030] 进一步地,所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括:卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21;
[0031] 所述卷积层Conv21为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端A和适应性注意力模块GAM2的输入端A,其输出端与全局均值池化层21的输入端通信连接;
[0032] 所述卷积层Conv22为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端B和适应性注意力模块GAM2的输入端B,其输出端与全局池化层22的输入端通信连接;
[0033] 所述全局池化层21的输出端与加法模块21的输入端A通信连接,所述全局池化层22的输出端与加法模块21的输入端B通信连接;
[0034] 所述加法模块21的输出端与Softmax层的输入端通信连接;
[0035] 所述Softmax层的输出端与乘法模块21的输入端通信连接;
[0036] 所述乘法模块21的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端。
[0037] 该适应性注意力模块着重于选择性地提取位置信息,并融合不同水平的加权注意力特征以实现相互的信息融合。记适应性注意力模块的输入数据为特征其中,C、H、W分别表示特征通道数、高度和宽度,i表示第i个操作。该注意力模块的输入是两个不同水平的特征图A和B,分别被表示为 和
[0038] 特征 和 分别经历卷积层Conv21和卷积层Conv22后,将通道数减少至C/2;
[0039] 新获得的特征 和 由全局均值池化层21和全局均值池化层22进一步被减少通道数,该处理流程可表述为如下表达式: 和
[0040] 两个不同水平的特征图A和B经过上述处理之后,通过加法模块21实现按元素加的操作完成融合,这样做是为了保留更多残余的注意力权值信息。然后,令其通过归一化操作以使得权值在(0,1)之间,该操作通过Softmax层实现。如公式 所示;
[0041] 最后,连接原来的特征 和 作为S∈R2C×H×W,将其与上一操作得到的权值进行按元素乘操作,以获得最终的加权特征图,如 所示。
[0042] 一种注意力机制引导的递进式划分人体解析方法,包括以下步骤:
[0043] S1、从大数据平台中获取已知对应的人体解析预测图的人体图像,构成训练数据集和测试数据集;
[0044] S2、通过训练数据集训练注意力机制引导的递进式划分人体解析模型,得到训练完成的注意力机制引导的递进式划分人体解析模型;
[0045] S3、通过测试数据集对训练完成的注意力机制引导的递进式划分人体解析模型进行验证,得到验证完成的注意力机制引导的递进式划分人体解析模型;
[0046] S4、通过验证完成的注意力机制引导的递进式划分人体解析模型对人体图像进行预测和解析,得到与人体图像相应的二分类显著性预测图和人体解析预测图。
[0047] 进一步地,所述步骤S2包括以下步骤:
[0048] S21、对训练数据集进行预处理;
[0049] S22、设定注意力机制引导的递进式划分人体解析模型的初始参数和训练规则;
[0050] S23、通过反向传播法,根据预处理后的训练数据集,对注意力机制引导的递进式划分人体解析模型内的各模块进行参数迭代。
[0051] 进一步地,所述步骤S21包括以下内容:对训练数据集中的数据采用0.5~1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。
[0052] 进一步地,所述步骤S22中的初始参数和训练规则包括以下表达式:
[0053]
[0054] LAPPNet=Lparsing+αLsailency (2)
[0055] α=1 (3)
[0056] power=0.9 (4)
[0057] base_lr=0.007 (5)
[0058] 其中,式1为学习率迭代规则,lr为当前学习率,base_lr为初始学习率,iter为当前迭代次数,max_iter为迭代总次数,power为指数参数;式2为训练规则的损失函数,Lparsing为分割预测图和分割标注图的交叉熵损失,Lsailency为显著性预测图和真实标注图的交叉熵损失,α为用以平衡分割损失和显著性损失的比例参数。
[0059] 本发明的有益效果为:本发明提出的模型着重探索了显著性检测对于人体解析的增强作用,以及注意力机制对于人体解析的有效性。在网络结构上,构建了一个特征提取模块,有效提取特征信息,并融合多维度特征,增强了人体解析的效果;设计了适应性注意力模块,为特征进行位置注意力加权,并提供了融合不同水平特征的有效融合思路;最后以由底至上的方式整合了显著性检测和人体解析到一个端到端的网络结构中,并在各分支应用上述模块,获得了统一化的有效结构。性能超越了目前已知的方法,展现了最优人体解析效果。

附图说明

[0060] 图1为一种注意力机制引导的递进式划分人体解析模型结构框图;
[0061] 图2为特征提取模块结构框图;
[0062] 图3为适应性注意力模块结构框图;
[0063] 图4为一种注意力机制引导的递进式划分人体解析方法流程示意图;
[0064] 图5为实验效果图。

具体实施方式

[0065] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0066] 如图1所示:一种注意力机制引导的递进式划分人体解析模型,包括:残差神经网络ResNet-101、显著性检测子系统和人体解析子系统;
[0067] 所述残差神经网络ResNet-101为结构型神经网络,用于处理人体图像,得到浅层低水平特征图和深层高水平特征图;其输出块Block1和输出块Block2与显著性检测子系统通信连接,用于将浅层低水平特征图输入到显著性检测子系统;其输出块Block3和输出块Block4与人体解析子系统通信连接,用于将深层高水平特征图输入到人体解析子系统;
[0068] 所述显著性检测子系统用于对浅层低水平特征图进行显著性预测,得到二分类显著性预测图;
[0069] 所述人体解析子系统用于对深层高水平特征图进行人体解析预测,得到人体解析预测图。
[0070] 所述显著性检测子系统包括:卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2;
[0071] 所述卷积层Conv1为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block1传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block1通信连接,其输出端与适应性注意力模块GAM1的输入端A通信连接;
[0072] 所述卷积层Conv2为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block2通信连接,其输出端与上采样模块1的输入端通信连接;
[0073] 所述上采样模块1用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图在降维处理后的图像数据进行上采样处理,其输出端与适应性注意力模块GAM1的输入端B通信连接;
[0074] 所述适应性注意力模块GAM1用于提取注意力特征,其输出端与卷积层Conv3通信连接,并与人体解析子系统通信连接用于特征增强;
[0075] 所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征,得到二分类显著性预测图;所述卷积层Conv3为3×3卷积层,其输出端与卷积层Conv4的输入端通信连接;所述卷积层Conv4为1×1卷积层,其输出端与上采样模块2的输入端通信连接;所述上采样模块2的输出端作为显著性检测子系统的处理结果输出端口,输出该系统运算得到的二分类显著性预测图。
[0076] 所述人体解析子系统包括:特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6;
[0077] 所述特征提取模块FEM1用于对残差神经网络ResNet-101的输出块Block3传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block3通信连接,其输出端与适应性注意力模块GAM2的输入端A通信连接;
[0078] 所述特征提取模块FEM2用于对残差神经网络ResNet-101的输出块Block4传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block4通信连接,其输出端与适应性注意力模块GAM2的输入端B通信连接;
[0079] 所述适应性注意力模块GAM2用于处理多维度上下文信息,得到有效加权特征,其输出端与上采样模块3的输入端通信连接;
[0080] 所述上采样模块3用于对有效加权特征进行上采样处理,其输出端与加法模块1的输入端A通信连接;
[0081] 所述加法模块1用于对适应性注意力模块GAM1提取到的注意力特征和适应性注意力模块GAM2得到的有效加权特征按元素进行加操作,以融合适应性注意力模块GAM1和适应性注意力模块GAM2提供的特征图,突出目标区域并提升类之间的紧凑性;其输入端B与适应性注意力模块GAM1的输出端通信连接,其输出端与卷积层Conv5的输入端通信连接;
[0082] 所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征,得到人体解析预测图;所述卷积层Conv5为3×3卷积层,其输出端与卷积层Conv6的输入端通信连接;所述卷积层Conv6为1×1卷积层,其输出端与上采样模块4的输入端通信连接;所述上采样模块4的输出端作为人体解析子系统的处理结果输出端口,输出该系统运算得到的人体解析预测图。
[0083] 如图2所示:所述特征提取模块FEM1和特征提取模块FEM2均包括:卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11;
[0084] 所述卷积层Conv11的输入端与卷积层Conv12的输入端、卷积层Conv13输入端以及卷积层Conv14的输入端通信连接,并作为适应性注意力模块GAM1的输入端和适应性注意力模块GAM2的输入端;所述卷积层Conv11的输出端与卷积层Conv15的输入端通信连接;所述卷积层Conv12的输出端与卷积层Conv16的输入端通信连接;所述卷积层Conv13的输出端与卷积层Conv17的输入端通信连接;所述卷积层Conv14的输出端与加法模块11的输入端A通信连接,所述卷积层Conv15的输出端与加法模块11的输入端B通信连接,所述卷积层Conv16的输出端与加法模块11的输入端C通信连接,所述卷积层Conv17的输出端与加法模块11的输入端D通信连接;所述加法模块11的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端;
[0085] 所述卷积层Conv11为3×3空洞卷积层,其空洞卷积率为3;
[0086] 所述卷积层Conv12为3×3空洞卷积层,其空洞卷积率为8;
[0087] 所述卷积层Conv13为3×3空洞卷积层,其空洞卷积率为12;
[0088] 所述卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17均为1×1卷积层。
[0089] 如图3所示:所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括:卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21;
[0090] 所述卷积层Conv21为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端A和适应性注意力模块GAM2的输入端A,其输出端与全局均值池化层21的输入端通信连接;
[0091] 所述卷积层Conv22为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端B和适应性注意力模块GAM2的输入端B,其输出端与全局池化层22的输入端通信连接;
[0092] 所述全局池化层21的输出端与加法模块21的输入端A通信连接,所述全局池化层22的输出端与加法模块21的输入端B通信连接;
[0093] 所述加法模块21的输出端与Softmax层的输入端通信连接;
[0094] 所述Softmax层的输出端与乘法模块21的输入端通信连接;
[0095] 所述乘法模块21的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端。
[0096] 该适应性注意力模块着重于选择性地提取位置信息,并融合不同水平的加权注意力特征以实现相互的信息融合。记适应性注意力模块的输入数据为特征其中,C、H、W分别表示特征通道数、高度和宽度,i表示第i个操作。该注意力模块的输入是两个不同水平的特征图A和B,分别被表示为 和
[0097] 特征 和 分别经历卷积层Conv21和卷积层Conv22后,将通道数减少至C/2;
[0098] 新获得的特征 和 由全局均值池化层21和全局均值池化层22进一步被减少通道数,该处理流程可表述为如下表达式: 和
[0099] 两个不同水平的特征图A和B经过上述处理之后,通过加法模块21实现按元素加的操作完成融合,这样做是为了保留更多残余的注意力权值信息。然后,令其通过归一化操作以使得权值在(0,1)之间,该操作通过归一化模块Softmax实现。如公式所示;
[0100] 最后,连接原来的特征 和 作为S∈R2C×H×W,将其与上一操作得到的权值进行按元素乘操作,以获得最终的加权特征图,如 所示。
[0101] 如图4所示:一种注意力机制引导的递进式划分人体解析方法,包括以下步骤:
[0102] S1、从大数据平台中获取已知对应的二分类显著性预测图和人体解析预测图的人体图像,构成训练数据集和测试数据集;
[0103] 在本实施例中,选取了三个主流人体解析数据集进行实验,包括LIP、CIHP、PPSS。
[0104] LIP是目前数量最大的一个人体解析数据集,共包含50462张图片,其中30462张用于训练,10000张用于验证,剩下的10000张用于测试。该数据集共包含20个类别,大多数图片只包含单个人体。
[0105] CIHP是一个应对实例人体解析的数据集,每张图片均包含多个实例,相对于现有的主流数据集,其图片更具复杂性和挑战性。该数据集共包含38280张图片,其中28280张图片用于训练,测试集和验证集分别包含5000张,类别分类为20。
[0106] PPSS是一个小型的人体解析数据集,主要由行人图片组成,具有真实场景的复杂性。该数据集从171个视频序列中收集而成,共包含3673张图片。其中,训练集由前100个序列组成,测试集由后71个序列组成。该数据集共包含8个类别。
[0107] 选择以上三个数据集是为了验证模型对于不同类型数据集的适应性和鲁棒性,LIP和CIHP均包含20个分类,属于复杂的多分类解析问题。同时,CIHP包含多个实例,增加了解析难度。另外,PPSS是一个分类数较少的数据集,且主要由行人图片组成,具有与前两个数据集不同的图片风格,可用于检测模型的鲁棒性。
[0108] S2、通过训练数据集训练注意力机制引导的递进式划分人体解析模型,得到训练完成的注意力机制引导的递进式划分人体解析模型;
[0109] S3、通过测试数据集对训练完成的注意力机制引导的递进式划分人体解析模型进行验证,得到验证完成的注意力机制引导的递进式划分人体解析模型;
[0110] S4、通过验证完成的注意力机制引导的递进式划分人体解析模型对人体图像进行预测和解析,得到与人体图像相应的二分类显著性预测图和人体解析预测图。
[0111] 所述步骤S2包括以下步骤:
[0112] S21、对训练数据集进行预处理;
[0113] S22、设定注意力机制引导的递进式划分人体解析模型的初始参数和训练规则;
[0114] S23、通过反向传播法,根据预处理后的训练数据集,对注意力机制引导的递进式划分人体解析模型内的各模块进行参数迭代。
[0115] 所述步骤S21包括以下内容:对训练数据集中的数据采用0.5~1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。其中,对于训练数据集中的显著性标注图是通过统一化标注图片中非背景类像素获得,最后以“0”标识背景类,以“1”标识边缘。
[0116] 所述步骤S22中的初始参数和训练规则包括以下表达式:
[0117]
[0118] LAPPNet=Lparsing+Lsailency (2)
[0119] α=1 (3)
[0120] power=0.9 (4)
[0121] base_lr=0.007 (5)
[0122] 其中,式1为学习率迭代规则,lr为当前学习率,base_lr为初始学习率,iter为当前迭代次数,max_iter为迭代总次数,power为指数参数;式2为训练规则的损失函数,Lparsing为分割预测图和分割标注图的交叉熵损失,Lsailency为显著性预测图和真实标注图的交叉熵损失,α为用以平衡分割损失和显著性损失的比例参数。
[0123] 在本实施例的训练过程中,由于LIP、CIHP、PPSS三个平台的数据存在差异,故采用了不同的图片输入尺寸。对于LIP,输入尺寸为473×473;对于CIHP,采用的输入尺寸是512×512;对于PPSS,输入尺寸为256×256。三个数据集分类情况也具有差异,LIP和CIHP类别数目K设置为20,PPSS类别数目K为8。
[0124] 本发明提出的模型在上述步骤中提到的三个数据集上均进行了训练、验证。在验证过程中,不需要生成边缘标注图。所有实验均以均交并比mIoU作为评价标准,其公式为其中,k+1表示数据集类别总数(相当于类别数目K),pij表示类i被识别为类j的像素总数,pji表示类j被识别为类i的像素总数,pii表示识别正确的像素总数。实验结果显示,模型在LIP、CIHP、PPSS上实现的mIoU分别为54.08%、
59.88%、60.2%。在三个数据集上的表现力均超越了已有的方法。这证明了本发明提出的模型在解决实际场景人体解析上具有有效性、鲁棒性以及普遍性。如图5,展示了本发明提出的人体解析模型生成的人体分割图的效果对比。在验证过程中,为了证明本发明提出的特征提取模块以及注意力模块的有效性,在LIP数据集上进行了原模型剔除上述模块的一系列实验,具体实验结果如下表所示,其中,GAM1表示用于显著性检测子系统中的注意力模块,GAM2表示用于人体解析子系统中的注意力模块。与原模型生成的分割图对比也展示在图5中,其中,CE2P是论文(Tao Ruan,Ting Liu,Zilong Huang,Yunchao Wei,Shikui Wei,Yao Zhao.Devil in the Details:Towards Accurate Single and Multiple Human Parsing[C].AAAI,2019:4814-4821)提供的方法。对比说明,本发明提出的两个模块均具有突出的增强效果和应用价值。
[0125] 表1各论文中所述方法与本发明的mIoU性能对比表
[0126]