一种雾天图像识别方法及装置转让专利

申请号 : CN202211671845.4

文献号 : CN115641584B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 辛贵鹏彭峰吉鑫钰吕小磊杨旺褚端峰

申请人 : 武汉深图智航科技有限公司

摘要 :

本发明提供了一种雾天图像识别方法及装置,其方法包括:获取待识别雾天图像;将待识别雾天图像输入至雾天图像识别模型中获得识别结果;雾天图像识别模型包括骨干网络、域自适应网络、颈部网络和头部网络;骨干网络获得多个特征提取图;域自适应网络根据多个特征提取图获得多个域标签特征图;颈部网络包括多重注意力模块、多尺度特征融合模块及多个动态卷积模块,多重注意力模块根据域标签特征图获得注意力特征图,多尺度特征融合模块提取注意力特征图或域标签特征图的多个特征并进行特征融合,获得融合特征图,动态卷积模块对融合特征图进行动态卷积,获得卷积特征图;头部网络用于根据卷积特征图获得识别结果。本发明提高了识别精度和识别效率。

权利要求 :

1.一种雾天图像识别方法,其特征在于,包括:

获取待识别雾天图像;

将所述待识别雾天图像输入至训练完备的雾天图像识别模型中获得识别结果;

其中,所述雾天图像识别模型包括骨干网络、域自适应网络、颈部网络和头部网络;所述骨干网络用于根据所述待识别雾天图像获得多个特征提取图;所述域自适应网络用于根据所述多个特征提取图获得携带域标签的多个域标签特征图;所述颈部网络包括多重注意力模块、多尺度特征融合模块以及多个动态卷积模块,所述多重注意力模块用于根据所述多个域标签特征图获得多个注意力特征图,所述多尺度特征融合模块用于提取所述多个注意力特征图或所述多个域标签特征图的多个特征并进行特征融合,获得融合特征图,所述动态卷积模块用于对所述融合特征图进行动态卷积,获得卷积特征图;所述头部网络用于根据所述卷积特征图获得所述识别结果;

所述多个特征提取图包括第一特征提取图、第二特征提取图和第三特征提取图;

所述域自适应网络包括与所述第一特征提取图对应的第一域自适应模块、与所述第二特征提取图对应的第二域自适应模块以及与所述第三特征提取图对应的第三域自适应模块;所述多重注意力模块包括与所述第一特征提取图对应的第一多重注意力单元以及与所述第二特征提取图对应的第二多重注意力单元;所述多尺度特征融合模块包括与所述第一特征提取图对应的第一多尺度特征融合单元、与所述第二特征提取图对应的第二多尺度特征融合单元以及与所述第三特征提取图对应的第三多尺度特征融合单元;

所述第一域自适应模块用于确定所述第一特征提取图的第一域标签特征图;

所述第二域自适应模块用于确定所述第二特征提取图的第二域标签特征图;

所述第三域自适应模块用于确定所述第三特征提取图的第三域标签特征图;

所述第一多重注意力单元用于根据所述第一域标签特征图获得第一注意力特征图;

所述第二多重注意力单元用于根据所述第二域标签特征图获得第二注意力特征图;

所述第一多尺度特征融合单元用于提取所述第一注意力特征图的多个特征并进行特征融合,获得第一融合特征图;

所述第二多尺度特征融合单元用于提取所述第二注意力特征图的多个特征并进行特征融合,获得第二融合特征图;

所述第三多尺度特征融合单元用于提取所述第三域标签特征图的多个特征并进行特征融合,获得第三融合特征图。

2.根据权利要求1所述的雾天图像识别方法,其特征在于,所述骨干网络包括依次连接的初始卷积注意力模块、最大池化层、第一骨干块、第二骨干块、第三骨干块以及第四骨干块;

所述待识别雾天图像依次经过所述初始卷积注意力模块、所述最大池化层、所述第一骨干块以及所述第二骨干块的处理后获得所述第一特征提取图;

所述第三骨干块用于对所述第一特征提取图进行特征提取,获得所述第二特征提取图;

所述第四骨干块用于对所述第二特征提取图进行特征提取,获得所述第三特征提取图。

3.根据权利要求2所述的雾天图像识别方法,其特征在于,所述第一骨干块、所述第二骨干块、所述第三骨干块以及所述第四骨干块均包括一个第一骨干单元和多个第二骨干单元,所述第一骨干单元包括第一卷积注意力模块、第一动态卷积层、第一批量归一化层、第二动态卷积层、第二批量归一化层以及第一激活函数层;所述第二骨干单元包括第二卷积注意力模块、第三动态卷积层、第三批量归一化层以及第二激活函数层;

所述初始卷积注意力模块、所述第一卷积注意力模块以及所述第二卷积注意力模块均包括依次连接的注意力动态卷积层、注意力批量归一化层以及注意力激活函数层。

4.根据权利要求1所述的雾天图像识别方法,其特征在于,所述第一多重注意力单元以及所述第二多重注意力单元均包括并行的通道注意力子模块、区域注意力子模块以及联合卷积层,所述通道注意力子模块包括全局平均池化层、第一通道全连接层、第二通道全连接层、第一通道激活函数层、第三通道全连接层以及第二通道激活函数层;所述区域注意力子模块包括第一区域卷积层、第一区域激活函数层、第二区域卷积层、第二区域激活函数层、第三区域卷积层以及第三区域激活函数层;

所述通道注意力子模块用于提取所述多个域标签特征图的通道注意力特征;

所述区域注意力子模块用于提取所述多个域标签特征图的区域注意力特征;

所述联合卷积层用于对所述通道注意力特征、所述区域注意力特征和所述域标签特征图进行卷积操作,获得所述注意力特征图。

5.根据权利要求1所述的雾天图像识别方法,其特征在于,所述第一多尺度特征融合单元、所述第二多尺度特征融合单元以及所述第三多尺度特征融合单元均包括:第一尺度特征提取子单元、第二尺度特征提取子单元、第三尺度特征提取子单元、第四尺度特征提取子单元、第一多尺度特征融合层、多尺度卷积层以及第二多尺度特征融合层;

所述第一尺度特征提取子单元、所述第二尺度特征提取子单元、所述第三尺度特征提取子单元以及所述第四尺度特征提取子单元分别用于提取所述注意力特征图或所述域标签特征图的多尺度特征,对应获得第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图;

所述第一多尺度特征融合层用于将所述第一尺度特征图、所述第二尺度特征图以及所述第三尺度特征图进行融合,获得初始特征融合图;

所述多尺度卷积层用于对所述初始特征融合图进行卷积,获得多尺度卷积特征图;

所述第二多尺度特征融合层用于将所述多尺度卷积特征图和所述第四尺度特征图进行融合,获得所述融合特征图。

6.根据权利要求1所述的雾天图像识别方法,其特征在于,所述第一域自适应模块、所述第二域自适应模块以及所述第三域自适应模块均包括依次连接的梯度反转层、第一域自适应卷积层、第二域自适应卷积层以及域分类器。

7.根据权利要求1所述的雾天图像识别方法,其特征在于,所述动态卷积模块包括与所述第一多尺度特征融合单元连接的第一动态卷积单元、与所述第二多尺度特征融合单元连接的第二动态卷积单元、与所述第三多尺度特征融合单元连接的第三动态卷积单元以及依次连接于所述第三动态卷积单元之后的第四动态卷积单元和第五动态卷积单元;所述颈部网络还包括与所述第三动态卷积单元连接的第一上采样层以及与所述第二动态卷积单元连接的第二上采样层;

所述第三动态卷积单元用于对所述第三融合特征图进行动态卷积,获得第三卷积特征图;

所述第一上采样层用于对所述第三卷积特征图进行上采样,获得第一上采样特征图;

所述第二动态卷积单元用于对所述第二融合特征图和所述第一上采样特征图进行动态卷积,获得第二卷积特征图;

所述第二上采样层用于对所述第二卷积特征图进行上采样,获得第二上采样特征图;

所述第一动态卷积单元用于对所述第一融合特征图和所述第二上采样特征图进行动态卷积,获得第一卷积特征图;

所述第四动态卷积单元用于对所述第三卷积特征图进行动态卷积,获得第四卷积特征图;

所述第五动态卷积单元用于对所述第四卷积特征图进行动态卷积,获得第五卷积特征图。

8.根据权利要求7所述的雾天图像识别方法,其特征在于,所述第一动态卷积单元包括动态全局平均池化层、第一动态全连接层、第一动态激活函数层、第二动态全连接层、第二动态激活函数层、并行的三个权重动态卷积层、动态联合卷积层、动态卷积层、动态批量归一化层以及第三动态激活函数层。

9.一种雾天图像识别装置,其特征在于,包括:

图像获取单元,用于获取待识别雾天图像;

图像识别单元,用于将所述待识别雾天图像输入至训练完备的雾天图像识别模型中获得识别结果;

其中,所述雾天图像识别模型包括骨干网络、域自适应网络、颈部网络和头部网络;所述骨干网络用于根据所述待识别雾天图像获得多个特征提取图;所述域自适应网络用于根据所述多个特征提取图获得携带域标签的多个域标签特征图;所述颈部网络包括多重注意力模块、多尺度特征融合模块以及多个动态卷积模块,所述多重注意力模块用于根据所述多个域标签特征图获得多个注意力特征图,所述多尺度特征融合模块用于提取所述多个注意力特征图或所述多个域标签特征图的多个特征并进行特征融合,获得融合特征图,所述动态卷积模块用于对所述融合特征图进行动态卷积,获得卷积特征图;所述头部网络用于根据所述卷积特征图获得所述识别结果;

所述多个特征提取图包括第一特征提取图、第二特征提取图和第三特征提取图;

所述域自适应网络包括与所述第一特征提取图对应的第一域自适应模块、与所述第二特征提取对应的第二域自适应模块以及与所述第三特征提取图对应的第三域自适应模块;

所述多重注意力模块包括与所述第一特征提取图对应的第一多重注意力单元以及与所述第二特征提取图对应的第二多重注意力单元;所述多尺度特征融合模块包括与所述第一特征提取图对应的第一多尺度特征融合单元、与所述第二特征提取图对应的第二多尺度特征融合单元以及与所述第三特征提取图对应的第三多尺度特征融合单元;

所述第一域自适应模块用于确定所述第一特征提取图的第一域标签特征图;

所述第二域自适应模块用于确定所述第二特征提取图的第二域标签特征图;

所述第三域自适应模块用于确定所述第三特征提取图的第三域标签特征图;

所述第一多重注意力单元用于根据所述第一域标签特征图获得第一注意力特征图;

所述第二多重注意力单元用于根据所述第二域标签特征图获得第二注意力特征图;

所述第一多尺度特征融合单元用于提取所述第一注意力特征图的多个特征并进行特征融合,获得第一融合特征图;

所述第二多尺度特征融合单元用于提取所述第二注意力特征图的多个特征并进行特征融合,获得第二融合特征图;

所述第三多尺度特征融合单元用于提取所述第三域标签特征图的多个特征并进行特征融合,获得第三融合特征图。

说明书 :

一种雾天图像识别方法及装置

技术领域

[0001] 本发明涉及图像识别技术领域,具体涉及一种雾天图像识别方法及装置。

背景技术

[0002] 目前大多数视觉检测算法只能在无雾的场景中较好地工作,而在雾霾天气环境下,车载相机拍摄的图像质量会受到严重影响,导致雾天低质量的图像无法被检测模型高效识别。为了消除雾天环境对目标检测器性能的不利影响,以提高雾天目标检测效果,现有雾天目标检测方法主要可分为两大类:一类方法是将雾天目标检测问题拆分为两个环节,先对雾天图像进行恢复,然后再对去雾后的洁净图像进行目标检测;另一类是利用迁移学习领域的方法,雾天目标检测问题被看作是从正常天气环境下的目标检测向雾天环境下进行迁移的过程。
[0003] 上述两种现有技术存在的技术问题为:1、传统的雾天目标检测方法(拆分方法)的首要任务是进行雾天图像恢复,即图像去雾后的质量好坏会直接影响目标检测器的检测效果。其次随着场景的不断变化,模型的泛化能力较差,也就是存在鲁棒性较差等问题,导致识别结果不准确且识别效率较慢的技术问题。2、目前基于域自适应的方法将雾天图像看作一个整体特征分布,域分类器对特征的提取不够精细,且真实雾天环境下的目标检测数据集稀缺,并缺少精确标注,导致识别结果不准确等问题。
[0004] 因此,急需提出一种雾天图像识别方法和装置,解决现有技术中存在的无法对待识别雾天图像进行识别的识别结果不准确以及识别效率较慢的技术问题。

发明内容

[0005] 有鉴于此,有必要提供一种雾天图像识别方法和装置,用以解决现有技术中存在的对待识别雾天图像进行识别的识别结果不准确以及识别效率较慢的技术问题。
[0006] 一方面,本发明提供了一种雾天图像识别方法,包括:
[0007] 获取待识别雾天图像;
[0008] 将所述待识别雾天图像输入至训练完备的雾天图像识别模型中获得识别结果;
[0009] 其中,所述雾天图像识别模型包括骨干网络、域自适应网络、颈部网络和头部网络;所述骨干网络用于根据所述待识别雾天图像获得多个特征提取图;所述域自适应网络用于根据所述多个特征提取图获得携带域标签的多个域标签特征图;所述颈部网络包括多重注意力模块、多尺度特征融合模块以及多个动态卷积模块,所述多重注意力模块用于根据所述多个域标签特征图获得多个注意力特征图,所述多尺度特征融合模块用于提取所述多个注意力特征图或所述多个域标签特征图的多个特征并进行特征融合,获得融合特征图,所述动态卷积模块用于对所述融合特征图进行动态卷积,获得卷积特征图;所述头部网络用于根据所述卷积特征图获得所述识别结果。
[0010] 在一些可能的实现方式中,所述多个特征提取图包括第一特征提取图、第二特征提取图和第三特征提取图;所述骨干网络包括依次连接的初始卷积注意力模块、最大池化层、第一骨干块、第二骨干块、第三骨干块以及第四骨干块;
[0011] 所述待识别雾天图像依次经过所述初始卷积注意力模块、所述最大池化层、所述第一骨干块以及所述第二骨干块的处理后获得所述第一特征提取图;
[0012] 所述第三骨干块用于对所述第一特征提取图进行特征提取,获得所述第二特征提取图;
[0013] 所述第四骨干块用于对所述第二特征提取图进行特征提取,获得所述第三特征提取图。
[0014] 在一些可能的实现方式中,所述第一骨干块、所述第二骨干块、所述第三骨干块以及所述第四骨干块均包括一个第一骨干单元和多个第二骨干单元,所述第一骨干单元包括第一卷积注意力模块、第一动态卷积层、第一批量归一化层、第二动态卷积层、第二批量归一化层以及第一激活函数层;所述第二骨干单元包括第二卷积注意力模块、第三动态卷积层、第三批量归一化层以及第二激活函数层;
[0015] 所述初始卷积注意力模块、所述第一卷积注意力模块以及所述第二卷积注意力模块均包括依次连接的注意力动态卷积层、注意力批量归一化层以及注意力激活函数层。
[0016] 在一些可能的实现方式中,所述域自适应网络包括与所述第一特征提取图对应的第一域自适应模块、与所述第二特征提取对应的第二域自适应模块以及与所述第三特征提取图对应的第三域自适应模块;所述多重注意力模块包括与所述第一特征提取图对应的第一多重注意力单元以及与所述第二特征提取图对应的第二多重注意力单元;所述多尺度特征融合模块包括与所述第一特征提取图对应的第一多尺度特征融合单元、与所述第二特征提取图对应的第二多尺度特征融合单元以及与所述第三特征提取图对应的第三多尺度特征融合单元;
[0017] 所述第一域自适应模块用于确定所述第一特征提取图的第一域标签特征图;
[0018] 所述第二域自适应模块用于确定所述第二特征提取图的第二域标签特征图;
[0019] 所述第三域自适应模块用于确定所述第三特征提取图的第三域标签特征图;
[0020] 所述第一多重注意力单元用于根据所述第一域标签特征图获得第一注意力特征图;
[0021] 所述第二多重注意力单元用于根据所述第二域标签特征图获得第二注意力特征图;
[0022] 所述第一多尺度特征融合单元用于提取所述第一注意力特征图的多个特征并进行特征融合,获得第一融合特征图;
[0023] 所述第二多尺度特征融合单元用于提取所述第二注意力特征图的多个特征并进行特征融合,获得第二融合特征图;
[0024] 所述第三多尺度特征融合单元用于提取所述第三域标签特征图的多个特征并进行特征融合,获得第三融合特征图。
[0025] 在一些可能的实现方式中,所述第一多重注意力单元以及所述第二多重注意力单元均包括并行的通道注意力子模块、区域注意力子模块以及联合卷积层,所述通道注意力子模块包括全局平均池化层、第一通道全连接层、第二通道全连接层、第一通道激活函数层、第三通道全连接层以及第二通道激活函数层;所述区域注意力子模块包括第一区域卷积层、第一区域激活函数层、第二区域卷积层、第二区域激活函数层、第三区域卷积层以及第三区域激活函数层;
[0026] 所述通道注意力子模块用于提取所述多个域标签特征图的通道注意力特征;
[0027] 所述区域注意力子模块用于提取所述多个域标签特征图的区域注意力特征;
[0028] 所述联合卷积层用于对所述通道注意力特征、所述区域注意力特征和所述域标签特征图进行卷积操作,获得所述注意力特征图。
[0029] 在一些可能的实现方式中,所述第一多尺度特征融合单元、所述第二多尺度特征融合单元以及所述第三多尺度特征融合单元均包括:第一尺度特征提取子单元、第二尺度特征提取子单元、第三尺度特征提取子单元、第四尺度特征提取子单元、第一多尺度特征融合层、多尺度卷积层以及第二多尺度特征融合层;
[0030] 所述第一尺度特征提取子单元、所述第二尺度特征提取子单元、所述第三尺度特征提取子单元以及所述第四尺度特征提取子单元分别用于提取所述注意力特征图或所述域标签特征图的多尺度特征,对应获得第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图;
[0031] 所述第一多尺度特征融合层用于将所述第一尺度特征图、所述第二尺度特征图以及所述第三尺度特征图进行融合,获得初始特征融合图;
[0032] 所述多尺度卷积层用于对所述初始特征融合图进行卷积,获得多尺度卷积特征图;
[0033] 所述第二多尺度特征融合层用于将所述多尺度卷积特征图和所述第四尺度特征图进行融合,获得所述融合特征图。
[0034] 在一些可能的实现方式中,所述第一域自适应模块、所述第二域自适应模块以及所述第三域自适应模块均包括依次连接的梯度反转层、第一域自适应卷积层、第二域自适应卷积层以及域分类器。
[0035] 在一些可能的实现方式中,所述动态卷积模块包括与所述第一多尺度特征融合单元连接的第一动态卷积单元、与所述第二多尺度特征融合单元连接的第二动态卷积单元、与所述第三多尺度特征融合单元连接的第三动态卷积单元以及依次连接于所述第三动态卷积单元之后的第四动态卷积单元和第五动态卷积单元;所述颈部网络还包括与所述第三动态卷积单元连接的第一上采样层以及与所述第二动态卷积单元连接的第二上采样层;
[0036] 所述第三动态卷积单元用于对所述第三融合特征图进行动态卷积,获得第三卷积特征图;
[0037] 所述第一上采样层用于对所述第三卷积特征图进行上采样,获得第一上采样特征图;
[0038] 所述第二动态卷积单元用于对所述第二融合特征图和所述第一上采样特征图进行动态卷积,获得第二卷积特征图;
[0039] 所述第二上采样层用于对所述第二卷积特征图进行上采样,获得第二上采样特征图;
[0040] 所述第一动态卷积单元用于对所述第一融合特征图和所述第二上采样特征图进行动态卷积,获得第一卷积特征图;
[0041] 所述第四动态卷积单元用于对所述第三卷积特征图进行动态卷积,获得第四卷积特征图;
[0042] 所述第五动态卷积单元用于对所述第四卷积特征图进行动态卷积,获得第五卷积特征图。
[0043] 在一些可能的实现方式中,所述第一动态卷积单元包括动态全局平均池化层、第一动态全连接层、第一动态激活函数层、第二动态全连接层、第二动态激活函数层、并行的三个权重动态卷积层、动态联合卷积层、动态卷积层、动态批量归一化层以及第三动态激活函数层。
[0044] 另一方面,本发明还提供了一种雾天图像识别装置,包括:
[0045] 图像获取单元,用于获取待识别雾天图像;
[0046] 图像识别单元,用于将所述待识别雾天图像输入至训练完备的雾天图像识别模型中获得识别结果;
[0047] 其中,所述雾天图像识别模型包括骨干网络、域自适应网络、颈部网络和头部网络;所述骨干网络用于根据所述待识别雾天图像获得多个特征提取图;所述域自适应网络用于根据所述多个特征提取图获得携带域标签的多个域标签特征图;所述颈部网络包括多重注意力模块、多尺度特征融合模块以及多个动态卷积模块,所述多重注意力模块用于根据所述多个域标签特征图获得多个注意力特征图,所述多尺度特征融合模块用于提取所述多个注意力特征图或所述多个域标签特征图的多个特征并进行特征融合,获得融合特征图,所述动态卷积模块用于对所述融合特征图进行动态卷积,获得卷积特征图;所述头部网络用于根据所述卷积特征图获得所述识别结果。
[0048] 采用上述实施例的有益效果是:本发明提供的雾天图像识别方法,通过设置颈部网络包括动态卷积模块,相比于传统卷积可不依赖于输入,共享卷积核参数等特征,可以为图像中不同类别目标学习一个特定的卷积核参数,提高特征提取的精度和准确性,从而可提高识别结果的检测精度。进一步地,本发明摒弃了先对待识别雾天图像进行去雾,再检测的级联检测方法,使用端到端的模型直接对雾天图像进行识别,提高了检测效率。更进一步地,本发明通过设置颈部网络包括多重注意力模块,可在降低计算量的同时筛选出关键特征,抑制背景噪声,且通过设置颈部网络包括多尺度特征融合模块,进一步有增强对浅层网络特征的表达能力,从而可进一步提高识别出的识别结果的准确性。
[0049] 并且,本发明提出的域自适应网络是根据多个特征提取图获得多个域标签特征图,实现的是特征级别的域自适应方法,可解决现有技术中存在的雾天真实数据集短缺、且无标签的技术问题,缩小了正常天气环境和雾天环境的域偏移,从而可进一步提高识别结果的识别精度。

附图说明

[0050] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0051] 图1为本发明提供的雾天图像识别方法的一个实施例流程示意图;
[0052] 图2为本发明提供的雾天图像识别模型的一个实施例结构示意图;
[0053] 图3为本发明提供的第一骨干单元的一个实施例结构示意图;
[0054] 图4为本发明提供的初始卷积注意力模块、第一卷积注意力模块以及第二卷积注意力模块的实施例结构示意图;
[0055] 图5为本发明提供的第一多重注意力单元以及第二多重注意力单元的实施例结构示意图;
[0056] 图6为本发明提供的第一多尺度特征融合单元、第二多尺度特征融合单元以及第三多尺度特征融合单元的实施例结构示意图;
[0057] 图7为本发明提供的第一域自适应模块、第二域自适应模块以及第三域自适应模块的实施例结构示意图;
[0058] 图8为本发明提供的第一动态卷积单元的实施例结构示意图;
[0059] 图9为本发明提供的雾天图像识别装置的一个实施例结构示意图。

具体实施方式

[0060] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0061] 附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
[0062] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0063] 本发明实施例提供了一种雾天图像识别方法及装置,以下分别进行说明。
[0064] 在展示实施例前,先对本发明实施例适用的场景进行介绍:本发明实施例针对的是动态交通环境中的机动车、非机动车和行人这三个对象,即:对机动车、非机动车和行人进行识别。
[0065] 图1为本发明提供的雾天图像识别方法的一个实施例流程示意图,图2为本发明提供的雾天图像识别模型的一个实施例结构示意图,如图1和图2所示,雾天图像识别方法包括:
[0066] S101、获取待识别雾天图像;
[0067] S102、将待识别雾天图像输入至训练完备的雾天图像识别模型中获得识别结果;
[0068] 其中,雾天图像识别模型包括骨干网络、域自适应网络、颈部网络和头部网络;骨干网络用于根据待识别雾天图像获得多个特征提取图;域自适应网络用于根据多个特征提取图获得携带域标签的多个域标签特征图;颈部网络包括多重注意力模块、多尺度特征融合模块以及多个动态卷积模块,多重注意力模块用于根据多个域标签特征图获得多个注意力特征图,多尺度特征融合模块用于提取多个注意力特征图或多个域标签特征图的多个特征并进行特征融合,获得融合特征图,动态卷积模块用于对融合特征图进行动态卷积,获得卷积特征图;头部网络用于根据卷积特征图获得识别结果。
[0069] 与现有技术相比,本发明实施例提供的雾天图像识别方法,通过设置颈部网络包括动态卷积模块,相比于传统卷积可不依赖于输入,共享卷积核参数等特征,可以为图像中不同类别目标学习一个特定的卷积核参数,提高特征提取的精度和准确性,从而可提高识别结果的检测精度。进一步地,本发明实施例摒弃了先对待识别雾天图像进行去雾,再检测的级联检测方法,使用端到端的模型直接对雾天图像进行识别,提高了检测效率。更进一步地,本发明实施例通过设置颈部网络包括多重注意力模块,可在降低计算量的同时筛选出关键特征,抑制背景噪声,且通过设置颈部网络包括多尺度特征融合模块,进一步有增强对浅层网络特征的表达能力,从而可进一步提高识别出的识别结果的准确性。
[0070] 并且,本发明实施例提出的域自适应网络是根据多个特征提取图获得多个域标签特征图,实现的是特征级别的域自适应方法,可解决现有技术中存在的雾天真实数据集短缺、且无标签的技术问题,缩小了正常天气环境和雾天环境的域偏移,从而可进一步提高识别结果的识别精度。
[0071] 应当理解的是:步骤S101中获取待识别雾天图像的方式可为根据图像获取设备获取待识别雾天图像,也可为从存储介质中调用历史存储的待识别雾天图像。
[0072] 在本发明的一些实施例中,多个特征提取图包括第一特征提取图、第二特征提取图和第三特征提取图;如图2所示,骨干网络包括依次连接的初始卷积注意力模块、最大池化层、第一骨干块、第二骨干块、第三骨干块以及第四骨干块;第一骨干块、第二骨干块、第三骨干块以及第四骨干块均包括一个第一骨干单元和多个第二骨干单元;
[0073] 待识别雾天图像依次经过初始卷积注意力模块、最大池化层、第一骨干块以及第二骨干块的处理后获得第一特征提取图;
[0074] 第三骨干块用于对第一特征提取图进行特征提取,获得第二特征提取图;
[0075] 第四骨干块用于对第二特征提取图进行特征提取,获得第三特征提取图。
[0076] 在本发明的具体实施例中,第一骨干块包括两个第二骨干单元,第二骨干块包括三个第二骨干单元,第三骨干块包括五个第二骨干单元,第四骨干块包括两个第二骨干单元。
[0077] 在本发明的一些实施例中,如图3所示,第一骨干单元包括第一卷积注意力模块、第一动态卷积层、第一批量归一化层、第二动态卷积层、第二批量归一化层以及第一激活函数层。第二骨干单元包括第二卷积注意力模块、第三动态卷积层、第三批量归一化层以及第二激活函数层。
[0078] 具体地,如图4所示,初始卷积注意力模块、第一卷积注意力模块以及第二卷积注意力模块均包括依次连接的注意力动态卷积层、注意力批量归一化层以及注意力激活函数层。
[0079] 其中,第一激活函数层、第二激活函数层以及注意力激活函数层的激活函数为Sigmoid、tanh、ReLU、LeakyReLU、ELU、Maxout等激活函数中的任意一种。
[0080] 在本发明的一些实施例中,如图2所示,域自适应网络包括与第一特征提取图对应的第一域自适应模块、与第二特征提取对应的第二域自适应模块以及与第三特征提取图对应的第三域自适应模块;多重注意力模块包括与第一特征提取图对应的第一多重注意力单元以及与第二特征提取图对应的第二多重注意力单元;多尺度特征融合模块包括与第一特征提取图对应的第一多尺度特征融合单元、与第二特征提取图对应的第二多尺度特征融合单元以及与第三特征提取图对应的第三多尺度特征融合单元;
[0081] 第一域自适应模块用于确定第一特征提取图的第一域标签特征图;
[0082] 第二域自适应模块用于确定第二特征提取图的第二域标签特征图;
[0083] 第三域自适应模块用于确定第三特征提取图的第三域标签特征图;
[0084] 第一多重注意力单元用于根据第一域标签特征图获得第一注意力特征图;
[0085] 第二多重注意力单元用于根据第二域标签特征图获得第二注意力特征图;
[0086] 第一多尺度特征融合单元用于提取第一注意力特征图的多个特征并进行特征融合,获得第一融合特征图;
[0087] 第二多尺度特征融合单元用于提取第二注意力特征图的多个特征并进行特征融合,获得第二融合特征图;
[0088] 第三多尺度特征融合单元用于提取第三域标签特征图的多个特征并进行特征融合,获得第三融合特征图。
[0089] 在本发明的一些实施例中,如图5所示,第一多重注意力单元以及第二多重注意力单元均包括并行的通道注意力子模块、区域注意力子模块以及联合卷积层,通道注意力子模块包括全局平均池化层、第一通道全连接层、第二通道全连接层、第一通道激活函数层、第三通道全连接层以及第二通道激活函数层;区域注意力子模块包括第一区域卷积层、第一区域激活函数层、第二区域卷积层、第二区域激活函数层、第三区域卷积层以及第三区域激活函数层;
[0090] 通道注意力子模块用于提取多个域标签特征图的通道注意力特征;
[0091] 区域注意力子模块用于提取多个域标签特征图的区域注意力特征;
[0092] 联合卷积层用于对通道注意力特征、区域注意力特征和域标签特征图进行卷积操作,获得注意力特征图。
[0093] 本发明实施例通过设置并行的通道注意力子模块、区域注意力子模块,可通过通道注意力子模块提取关键空间信息,通过区域注意力子模块抑制噪声信息。接着,通过联合卷积层对通道注意力特征、区域注意力特征以及域标签特征图进行卷积操作,进行重新加权,获得注意力特征图,可以最大限度地放大关键特征信息,抑制背景噪声。从而提高提取出的注意力特征图的准确性,进而可提高识别结果的准确性。
[0094] 具体地,第一通道激活函数层、第一区域激活函数层以及第二区域激活函数层的激活函数为ReLu,第二通道激活函数层和第三区域激活函数层的激活函数为Sigmoid。
[0095] 本发明实施例中的通道注意力子模块首先使用全局平均池化层将各通道特征图所有像素值相加求平均值,以生成融到特征图,其次,通过第一通道全连接层、第二通道全连接层、第一通道激活函数层、第三通道全连接层以及第二通道激活函数层生成一维的通道注意力特。区域注意力子模块首先使用卷积核大小为1×1的第一区域卷积层来压缩通道,以减少通道维度并降低计算连,其次,通过卷积核大小为3×3的第二区域卷积层、第三区域卷积层以及第一区域激活函数层、第二区域激活函数层、第三区域激活函数层提取关键区域的空间信息,其中,3×3的卷积核可以在保持感受野的同时减少计算量。
[0096] 在本发明的一些实施例中,如图6所示,第一多尺度特征融合单元、第二多尺度特征融合单元以及第三多尺度特征融合单元均包括:第一尺度特征提取子单元、第二尺度特征提取子单元、第三尺度特征提取子单元、第四尺度特征提取子单元、第一多尺度特征融合层、多尺度卷积层以及第二多尺度特征融合层;
[0097] 第一尺度特征提取子单元、第二尺度特征提取子单元、第三尺度特征提取子单元以及第四尺度特征提取子单元分别用于提取注意力特征图或域标签特征图的多尺度特征,对应获得第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图;
[0098] 第一多尺度特征融合层用于将第一尺度特征图、第二尺度特征图以及第三尺度特征图进行融合,获得初始特征融合图;
[0099] 多尺度卷积层用于对初始特征融合图进行卷积,获得多尺度卷积特征图;
[0100] 第二多尺度特征融合层用于将多尺度卷积特征图和第四尺度特征图进行融合,获得融合特征图。
[0101] 本发明实施例通过设置第一尺度特征提取子单元、第二尺度特征提取子单元、第三尺度特征提取子单元、第四尺度特征提取子单元这四个分支,可融合多尺度感受野特征,充分利用浅层特征图中的语义信息和纹理特征,以高效利用浅层特征图。从而可实现最大限度的利用浅层特征图,进一步对浅层特征中的信息进行增强的目的,避免小目标的信息被噪声掩盖,进一步提高特征提取的准确性。
[0102] 在本发明的具体实施例中,如图6所示,第一尺度特征提取子单元包括卷积核大小分别为1×1、3×3和1×1的三个第一尺度卷积层;第二尺度特征提取子单元包括卷积核大小分别为1×1、3×3、5×5和1×1的四个第二尺度卷积层;第三尺度特征提取子单元包括大小为3×3的平均池化层和卷积核大小为1×1的第三尺度卷积层;第四尺度特征提取子单元包括卷积核大小为1×1的第四尺度卷积层。
[0103] 本发明实施例合并3×3卷积、5×5卷积及3×3池化层后的多尺度特征图。其次,使用1×1卷积来压缩通道。利用了不同大小的并行卷积核抓取不同感受野下的目标特征,从而融合多尺度感受野特征,以高效利用浅层特征图。最后,将上述输出与经1×1卷积后的特征图进行求和,生成多尺度融合后的融合特征图。强化了较小目标的特征表达,使雾天图像识别模型对较小目标更敏感,提高雾天图像识别模型的识别精度,从而提高雾天图像识别方法的识别精度。
[0104] 在本发明的一些实施例中,如图7所示,第一域自适应模块、第二域自适应模块以及第三域自适应模块均包括依次连接的梯度反转层、第一域自适应卷积层、第二域自适应卷积层以及域分类器。
[0105] 其中,梯度反转层在网络训练正向传播过程中传递的是正值,而在反向传播的过程中传播的是负值,该层的作用是将域自适应模块的损失最大化。第一域自适应卷积层、第二域自适应卷积层以及域分类器用于预测特征提取图属于某个域的类别概率,即域标签。
[0106] 本发明实施例通过设置第一域自适应卷积层、第二域自适应卷积层,可使特征提取图经过卷积运算后,提取出的高级特征涵盖更多的有用信息,同时会大大减少源域(正常天气下图像)和目标域(雾天下图像)之间的图像风格、位置或光照条件等差异,更有利于在放大个体目标差异的同时,提取域间的共性特征,使域分类器更准确。
[0107] 在本发明的具体实施例中,经过第一域自适应卷积层后,特征提取图的深度降为128,经过第二域自适应卷积层后,特征提取图的通道数降为1。
[0108] 在本发明的一些实施例中,如图2所示,动态卷积模块包括与第一多尺度特征融合单元连接的第一动态卷积单元、与第二多尺度特征融合单元连接的第二动态卷积单元、与第三多尺度特征融合单元连接的第三动态卷积单元以及依次连接于第三动态卷积单元之后的第四动态卷积单元和第五动态卷积单元;颈部网络还包括与第三动态卷积单元连接的第一上采样层以及与第二动态卷积单元连接的第二上采样层;
[0109] 第三动态卷积单元用于对第三融合特征图进行动态卷积,获得第三卷积特征图;
[0110] 第一上采样层用于对第三卷积特征图进行上采样,获得第一上采样特征图;
[0111] 第二动态卷积单元用于对第二融合特征图和第一上采样特征图进行动态卷积,获得第二卷积特征图;
[0112] 第二上采样层用于对第二卷积特征图进行上采样,获得第二上采样特征图;
[0113] 第一动态卷积单元用于对第一融合特征图和第二上采样特征图进行动态卷积,获得第一卷积特征图;
[0114] 第四动态卷积单元用于对第三卷积特征图进行动态卷积,获得第四卷积特征图;
[0115] 第五动态卷积单元用于对第四卷积特征图进行动态卷积,获得第五卷积特征图。
[0116] 本发明实施例通过设置第一上采样层和第二上采样层可进一步增加小目标在卷积特征图中的权重,强化了较小目标的特征表达,进一步提高雾天图像识别模型对小目标的敏感性,从而进一步提高雾天图像识别方法的识别精度。
[0117] 在本发明的一些实施例中,如图8所示,第一动态卷积单元包括动态全局平均池化层、第一动态全连接层、第一动态激活函数层、第二动态全连接层、第二动态激活函数层、并行的三个权重动态卷积层、动态联合卷积层、动态卷积层、动态批量归一化层以及第三动态激活函数层。
[0118] 其中,三个权重动态卷积层分别表示机动车、分机动车以及行人这三种类别的卷积层。
[0119] 其中,第一动态激活函数层和第三动态激活函数层的激活函数为ReLu,第二动态激活函数层的激活函数为Sigmoid。
[0120] 常规卷积的基本假设是:卷积核参数对所有样例共享。在常规卷积中,其卷积核参数经训练确定且对所有输入样本“一视同仁”。假定研究对象为机动车、非机动车及行人三大类,则传统卷积核代表着一位在机动车x1、非机动车x2及行人x3识别三个领域的均较权威专家Conv,输入x与输出output满足:output=Conv(xi)。故在接收到来自上层不同类对象的特征时,这种“绝对公平”会导致原本特征差异很大的类在通过训练后的卷积核参数来表示时,这种类间差异性会急剧减小。而本发明实施例中的权重动态卷积层将原来的那一位在三个领域较权威的专家换为三个各自领域内最权威的专家:机动车识别领域Conv1、非机动车识别领域Conv2,行人识别领域Conv3。在第一动态卷积单元中,每个权重动态卷积层的卷积核具有与传统静态卷积核参数一样的维度,且卷积核参数是通过对输入进行变换得到。该过程可描述为:
[0121]
[0122] 式中,W1、W2和W3分别表示机动车识别领域Conv1、非机动车识别领域Conv2,行人识别领域Conv3的权重;Concat叠加处理。
[0123] 在第一动态卷积单元中,来自上层的特征图不仅仅含有目标特征信息,可能还含有大量背景噪声特征,特征随着卷积层越来越深,特征信息会被连续压缩,这会导致目标关键信息越来越少,且这对于小目标来说是致命的,背景噪声会直接掩盖微少的小目标特征。因此,有必要对非感兴趣目标信息进行抑制,从而提高目标特征的关键度,使各位专家更容易精准、可靠地进行辨识,从而更新权重信息。然后,将上一层输出采用第二动态全连接层连接后接Sigmoid进行指数归一化处理,输出为三个维度参数,其过程可以描述为:
[0124]
[0125]
[0126] 式中,R为学习路由权重的矩阵,允许使用全局感受野上下文来适应局部感受野,将汇集的输入映射到3个专家权重。
[0127] 通过上述过程即可求解W1、W2、W3这三位领域专家对应的权重分布。
[0128] 应当理解的是:第二动态卷积单元、第三动态卷积单元、第四动态卷积单元以及第五动态卷积单元的结构与第一动态卷积单元的结构相同,在此不做一一赘述。
[0129] 在本发明的一些实施例中,如图2所示,头部网络包括第一头部预测模块、第二头部预测模块、第三头部预测模块、第四头部预测模块和第五头部预测模块,第一头部预测模块用于对第一卷积特征图进行预测,输出第一预测结果,第二头部预测模块用于对第二卷积特征图进行预测,输出第二预测结果,第三头部预测模块用于对第三卷积特征图进行预测,输出第三预测结果,第四头部预测模块用于对第四卷积特征图进行预测,输出第四预测结果,第五头部预测模块用于对第五卷积特征图进行预测,输出第五预测结果。最后头部网络根据第一预测结果、第二预测结果、第三预测结果、第四预测结果和第五预测结果获得识别结果。
[0130] 为验证本发明实施例提出的雾天图像识别模型在加入多重注意力模块、多尺度特征融合模块以及多个动态卷积模块之后对特征表征能力的提升,通过对传统FCOS模型、增加动态卷积模块的模型(FCOS+DyConv)、增加多尺度特征融合模块以及多个动态卷积模块的模型(FCOS+DAM+MSF)以及增加动态卷积模块、多尺度特征融合模块以及多个动态卷积模块的模型(DF‑FCOS)这四种模型对正常天气进行识别的结果进行比较,结果如表1所示:
[0131] 表1不同识别模型在正常天气环境下的检测精度对比
[0132]
[0133] 由表1中可以看出,在FCOS的骨干网络中使用Dy‑Conv代替传统卷积Conv进行特征提取,同时使用所设计的特征增强方法(DAM结合MSF)用于目标检测。改进后的网络不仅增强了主干网络的特征表征能力,还使得送入检测部分的关键特征图信息更加突出,从而提高了对正常天气图像识别的识别精度。
[0134] 为验证本发明实施例提出的雾天图像识别模型加入域自适应网络后对雾天图像识别的优越性,在Cityscapes数据集和FoggyCityscapes数据集上与传统没有加入域自适应网络的FasterR、DF‑FCOS、加入域自适应网络的FasterR(DA‑FasterR)、加入域自适应网络的YOLO(DA‑YOLO)、加入域自适应网络的FCOS(DA‑FCOS)这五个识别模型的检测精度进行比较,检测精度比较结果如表2所示:
[0135] 表2不同识别模型在雾天环境下的检测精度对比
[0136]
[0137] 由表2可知:本发明实施例提出的雾天图像识别模型在进行雾天目标检测时在各种类型目标中检测精度均大于其他识别模型,且所有类别的平均检测精度(mean Average Precision,mAP)也大于其他识别模型,因此,通过本发明实施例提出的雾天图像识别模型对目标进行识别,可极大提高雾天环境下的动态交通目标识别结果的准确率和精度。
[0138] 为了更好实施本发明实施例中的雾天图像识别方法,在雾天图像识别方法基础之上,对应的,本发明实施例还提供了一种雾天图像识别装置,如图9所示,雾天图像识别装置900包括:
[0139] 图像获取单元901,用于获取待识别雾天图像;
[0140] 图像识别单元902,用于将待识别雾天图像输入至训练完备的雾天图像识别模型中获得识别结果;
[0141] 其中,雾天图像识别模型包括骨干网络、域自适应网络、颈部网络和头部网络;骨干网络用于根据待识别雾天图像获得多个特征提取图;域自适应网络用于根据多个特征提取图获得携带域标签的多个域标签特征图;颈部网络包括多重注意力模块、多尺度特征融合模块以及多个动态卷积模块,多重注意力模块用于根据多个域标签特征图获得多个注意力特征图,多尺度特征融合模块用于提取多个注意力特征图或多个域标签特征图的多个特征并进行特征融合,获得融合特征图,动态卷积模块用于对融合特征图进行动态卷积,获得卷积特征图;头部网络用于根据卷积特征图获得识别结果。
[0142] 上述实施例提供的雾天图像识别装置900可实现上述雾天图像识别方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述雾天图像识别方法实施例中的相应内容,此处不再赘述。
[0143] 以上对本发明所提供的雾天图像识别方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。