基于注意力感知优化的垃圾目标检测方法转让专利

申请号 : CN202310728879.0

文献号 : CN116469060B

文献日 : 2023-08-25

本发明涉及的垃圾目标检测方法，包括步骤S1采集垃圾图像并进行标注，使用马赛克增强对数据集增强，获得的数据集，划分为验证集和训练集，训练集送入检测网络。步骤S2构建垃圾检测模型，在特征提取骨干网络中增设轻量级的自顶向下的注意力感知模块，迭代生成聚焦系数，通过通道和空间注意力，输出更多上下文相关的特征映射，提高模型对垃圾目标相关特征的感知能力。步骤S3通过动态样本选择策略，考虑规模、距离、质量和其他因素，使用有效的感受野来合理化阳性样本的数量，自动分析每个真值标注应有的正样本数量，平衡训练样本合理性。步骤S4利用Wise‑SIoU损失对垃圾目标检测网络进行多目标训练，得到训练模型，在验证集上进行推理，得到检测结果。

1.一种基于注意力感知优化的垃圾目标检测方法，其特征在于，包括以下步骤：步骤S1：采集垃圾图像并对目标进行标注，使用马赛克增强对数据集进行数据增强，获得垃圾检测数据集，划分为验证集和训练集，训练集数据作为输入图片送入基于注意力感知优化的垃圾目标检测网络；

步骤S2：构建基于注意力感知优化的垃圾目标检测网络，在特征提取骨干网络中增设轻量级的自顶向下的注意力感知模块，迭代生成注意力聚焦系数，通过通道和空间注意力，输出上下文相关的特征映射，提高模型对垃圾目标相关特征的感知能力，所述步骤S2具体包括以下步骤：步骤S21：搭建基于注意力感知优化的YOLOv5神经网络模型，在骨干网络CSPDarknet53的bottleneck模块中设计轻量级的自顶向下的注意力感知模块，bottleneck模块由包含N个卷积层的卷积块B组成，首先，将卷积块B的底层特征通过前馈操作映射0

到顶层输出特征其中，C0、H0和W0分别表示输入特征X的通道数、高度和N

宽度，CN、HN和WN分别表示输出特征X 的通道数、高度和宽度，每个计算步骤t的操作可以总结为如下公式：其中，t表示计算步骤的序号，t∈{1…T}，T表示计算步骤的总数，使用LN表示第N个卷积层操作，LN‑1表示第N‑1个卷积层操作，L1表示第1个卷积层操作，一共有N个卷积层操作，N为卷积块B中卷积层的数量，表示计算步骤t中输入的底层特征，表示计算步骤t中经过自顶而下前馈操作输出的顶层特征；

步骤S22：将注意力感知模块中聚焦系数St的生成过程建模为顶层特征和底层特征的联合可学习变换，首先，使用无参数化的池化操作把和的空间维度分别压缩为一维通道向量vhigh和vlow，其中，然后，将这些向量分别送入不同的单隐藏层多层感知器(MLP)进行处理，将处理结果进行拼接，通过另一个MLP生成一维向量St，St表示输入特征的注意力聚焦系数，自顶向下的前馈运算无需依赖顶层或底层特征的通道数和空间维度，允许和具有不同的维度，是一种连接注意力，计算公式如下：其中，g(·)表示可学习的转换模型，表示处理vhigh的MLP权重矩阵，r表示降低参数复杂度的缩小系数，表示处理vlow的MLP权重矩阵，表示生成St的MLP权重矩阵，ELU[·]表示ELU激活函数，APool(·)表示自适应池化操作；

步骤S23：当卷积块B的底部通道数量相对较大，需要更高参数效率的情况下，使用仅基于顶层特征映射的MLP来模拟St的生成，作为顶部注意力，计算公式如下：综上所述，St的计算公式可以总结为如下所示：

步骤S24：使用注意力聚焦系数St对执行通道和空间注意力，突出显示应该在下一个计算步骤中被重视的一些通道，首先，将与经过sigmoid激活函数的St进行元素乘积操作，得到缩放通道后的特征然后，St作为一个1×1滤波器与进行逐点卷积操作，得到二维空间映射表示缩放特征中的显著空间，最后，经过sigmoid激活函数处理，与进行元素乘积操作，实现在空间上的缩放，得到下一个计算步骤t+1的输入特征计算公式如下：其中，表示元素乘积，*表示逐点卷积，σ(·)表示sigmoid激活函数；

步骤S25：对进行前馈操作获得顶层特征重复计算T个计算步骤，得到bottleneck模块中卷积块B经过注意力感知处理后的输出特征进入下一个bottleneck模块，最后作为骨干网络的输出送至neck模块和head模块进行训练；

步骤S3：通过动态样本选择策略，考虑规模、距离、质量和其他因素，使用有效的感受野来合理化正样本的数量，自动分析每个真值标注应有的正样本数量，平衡训练样本合理性，所述步骤S3具体包括以下步骤：步骤S31：根据检测器的预测框结果，分析每个真值标注的正样本个数，从预测框中选出一致的正样本，首先，计算预测框和真值标注之间的eRF因子计算公式如下：其中，i表示第i个预测框的序号，j表示第j个真值标注的序号，1[·]表示指标函数，Di,j表示第i个预测框中心点与第j个真值标注中心点之间的欧几里德距离，α是一个调节标量，范围在[0,1]内，Rk表示骨干网络的eRF半径，由骨干网络的卷积层决定，在真值标注的eRF区域内，可以反映预测框的质量，加速IoU损失的回归；

步骤S32：为每个真值标注选择最近似的topk数量的预测框作为候选，令和分别表示第j个真值标注和第i个候选框之间的IoU值和eRF值，计算第j个真值标注的正样本pos质量每个真值标注都有N 值，代表正样本数量，的计算公式如下：其中，表示向下取整操作，topk表示候选框的数量；

步骤S33：为第j个真值标注选择个正样本，计算成本矩阵Mi,j，Mi,j表示第i个预测框和第j个真值标注之间的误差，对于每个第j个真值标注，有个预测框被选择作为正样本进行计算，Mi,j计算公式如下：

2 2 2 2

Mi,j＝(CorXi‑CorXj) +(CorYi‑CorYj) +(SWi‑SWj) +(SHi‑SHj)其中，CorXi、CorYi、SWi和SHi表示第i个预测框中心点的x、y坐标、宽度和高度，CorXj、CorYj、SWj和SHj表示第j个真值标注中心点的x、y坐标、宽度和高度；

步骤S4：利用Wise‑SIoU损失对所述基于注意力感知优化的垃圾目标检测网络进行多目标训练，得到训练模型，在验证集上进行推理，得到检测结果。

2.根据权利要求1所述的基于注意力感知优化的垃圾目标检测方法，其特征在于，所述步骤S1具体包括以下步骤：步骤S11：采集垃圾图像，使用labelImg软件对单张图像中的垃圾目标进行标注，生成YOLO格式的标注文件，包括目标的类别下标，目标中心点x坐标、y坐标以及目标的宽度和高度信息，以归一化表示的格式保存为与图像同名的txt文件，包含垃圾目标的图像和对应的标注文件共同组成垃圾检测数据集，划分为验证集和训练集，训练集数据作为输入图片送入检测网络。

步骤S12：使用马赛克增强方法对垃圾检测数据集进行数据增强，首先随机选取4张图片，通过缩放增加的数量，然后进行随机裁剪和随机分布将4张缩放后的图片拼接成1张图；

训练网络一次直接计算4张图片的数据，减少GPU显存。

3.根据权利要求1所述的基于注意力感知优化的垃圾目标检测方法，其特征在于，所述步骤S4的具体方法为：步骤S41：计算预测框与真值标注之间的角度损失Λ，计算公式如下所示：gt pre gt pre

dh＝max(by ,by )‑min(by ,by )

gt gt

其中，dh表示预测框与真值标注之间的高度差，bx 和by 分别表示真值标注中心点的pre prex、y坐标，bx 和by 分别表示预测框中心点的x、y坐标，θ表示预测框与真值标注中心点的直线距离；

步骤S42：计算预测框与真值标注之间的距离损失Δ，计算公式如下所示：gt pre gt pre

dw＝max(bx ,bx )‑min(by ,by )

其中，dw表示预测框与真值标注之间的宽度差，ρx表示预测框与真值标注中心点之间以x轴为底边的夹角平方，ρy表示预测框与真值标注中心点之间以y轴为底边的夹角平方，γ是角度指数系数，γ＝2‑Λ；

步骤S43：计算预测框与真值标注之间的形状损失Ω，计算公式如下所示：‑kw ‑khη

Ω＝(1‑e )η+(1‑e )

pre pre gt gt

其中，w 和h 分别表示预测框的宽和高，w 和h 分别表示真值标注的宽和高，kw宽度系数，kh表示高度系数，η是形状代价，表示对形状的关注度；

步骤S44：由角度损失、距离损失和形状损失共同组成SIoU损失LSIoU，在LSIoU的基础上构建距离注意力，得到Wise‑SIoU损失LWSIoU，将损失结果反馈到网络中，最后得到垃圾检测结果。LWSIoU计算公式如下：LWSIoU＝exp(kw)LSIoU

其中，IoU表示预测框和真值标注之间的交并比，exp(·)表示指数操作。

基于注意力感知优化的垃圾目标检测方法

技术领域

[0001] 本发明涉及模式识别与计算机视觉领域，特别是一种基于注意力感知优化的垃圾目标检测方法。

背景技术

[0002] 随着人工智能的迅猛发展，深度学习技术在自动驾驶、图像分类、人脸识别和目标检测等领域得到了广泛应用。目标检测是深度学习领域中非常重要的研究方向，其核心问题是如何准确无误地对图像中的目标进行分类和定位。在垃圾分类和定位领域，采用目标检测技术不仅可以避免人工主观性导致的垃圾错误分类，还能提高分类效率和准确率，有效降低垃圾对环境和人类健康的危害。

[0003] 然而，将深度学习目标检测技术应用于垃圾分类仍然面临一些挑战。首先，由于垃圾往往堆积在一起，相互遮挡且容易混淆，未标注物体作为无关背景信息，也会分散网络的注意力，导致垃圾识别的准确率下降。其次，现有的检测方法在图像昏暗和垃圾目标细小的情况下，会存在误识别和漏检问题。解决这些问题，提高垃圾分类和定位的准确率和效率，是一个具有重要意义的课题。

发明内容

[0004] 本发明的目的在于提供一种基于注意力感知优化的垃圾目标检测方法，该方法能够有效地对数据集图像中的垃圾目标进行检测识别。

[0005] 为实现上述目的，本发明采用的技术方案是：一种基于注意力感知优化的垃圾目标检测方法，包括以下步骤：

[0006] 步骤S1：采集垃圾图像并对目标进行标注，使用马赛克增强对数据集进行数据增强，获得垃圾检测数据集，划分为验证集和训练集，训练集数据作为输入图片送入基于注意力感知优化的垃圾目标检测网络；

[0007] 步骤S2：构建基于注意力感知优化的垃圾目标检测网络，在特征提取骨干网络中增设轻量级的自顶向下的注意力感知模块，迭代生成注意力聚焦系数，通过通道和空间注意力，输出上下文相关的特征映射，提高模型对垃圾目标相关特征的感知能力；

[0008] 步骤S3：通过动态样本选择策略，考虑规模、距离、质量和其他因素，使用有效的感受野来合理化正样本的数量，自动分析每个真值标注应有的正样本数量，平衡训练样本合理性；

[0009] 步骤S4：利用Wise‑SIoU损失对所述基于注意力感知优化的垃圾目标检测网络进行多目标训练，得到训练模型，在验证集上进行推理，得到检测结果。

[0010] 进一步地，所述步骤S1具体包括以下步骤：

[0011] 步骤S11：采集垃圾图像，使用labelImg软件对单张图像中的垃圾目标进行标注，生成YOLO格式的标注文件，包括目标的类别下标，目标中心点x坐标、y坐标以及目标的宽度和高度信息，以归一化表示的格式保存为与图像同名的txt文件。包含垃圾目标的图像和对应的标注文件共同组成垃圾检测数据集，划分为验证集和训练集，训练集数据作为输入图片送入检测网络。

[0012] 步骤S12：使用马赛克增强方法对垃圾检测数据集进行数据增强，首先随机选取4张图片，通过缩放增加的数量，然后进行随机裁剪和随机分布将4张缩放后的图片拼接成1张图。训练网络一次直接计算4张图片的数据，减少GPU显存；

[0013] 进一步地，所述步骤S2具体包括以下步骤：

[0014] 步骤S21：搭建基于注意力感知优化的YOLOv5神经网络模型，在骨干网络CSPDarknet53的bottleneck模块中设计轻量级的自顶向下的注意力感知模块。bottleneck模块由包含N个卷积层的卷积块B组成，首先，将卷积块B的底层特征通过前0
馈操作映射到顶层输出特征其中，C0、H0和W0分别表示输入特征X的通道
N
数、高度和宽度，CN、HN和WN分别表示输出特征X的通道数、高度和宽度。每个计算步骤t的操作可以总结为如下公式：

[0015]

[0016] 其中，t表示计算步骤的序号，t∈{1…T}，T表示计算步骤的总数。使用LN表示第N个卷积层操作，。LN‑1表示第N‑1个卷积层操作，L1表示第1个卷积层操作，一共有N个卷积层操作，N为卷积块B中卷积层的数量，表示计算步骤t中输入的底层特征，表示计算步骤t中经过自顶而下前馈操作输出的顶层特征。

[0017] 步骤S22：将注意力感知模块中聚焦系数St的生成过程建模为顶层特征和底层特征的联合可学习变换。首先，使用无参数化的池化操作把和的空间维度分别压缩为一维通道向量vhigh和vlow，其中，然后，将这些向量分别送入不同的单隐藏层多层感知器(MLP)进行处理，将处理结果进行拼接，通过另一个MLP生成一维向量St，St表示输入特征的注意力聚焦系数。自顶向下的前馈运算无需依赖顶层或底层特征的通道数和空间维度，允许和具有不同的维度，是一种连接注意力，计算公式如下：

[0018]

[0019] 其中，g(·)表示可学习的转换模型，表示处理vhigh的MLP权重矩阵，r表示降低参数复杂度的缩小系数，表示处理vlow的MLP权重矩阵，表示生成St的MLP权重矩阵，ELU[·]表示ELU激活函数，APool(·)表
示自适应池化操作。

[0020] 步骤S23：当卷积块B的底部通道数量相对较大，需要更高参数效率的情况下，使用仅基于顶层特征映射的MLP来模拟St的生成，作为顶部注意力，计算公式如下：

[0021]

[0022] 综上所述，St的计算公式可以总结为如下所示：

[0023]

[0024] 步骤S24：使用注意力聚焦系数St对执行通道和空间注意力，突出显示应该在下一个计算步骤中被重视的一些通道。首先，将与经过sigmoid激活函数的St进行元素乘积操作，得到缩放通道后的特征然后，St作为一个1×1滤波器与进行逐点卷积操作，得到二维空间映射表示缩放特征中的显著空间。最后，
经过sigmoid激活函数处理，与进行元素乘积操作，实现在空间上的缩放，得到下一个计算步骤t+1的输入特征计算公式如下：

[0025]

[0026]

[0027]

[0028] 其中，表示元素乘积，*表示逐点卷积，σ(·)表示sigmoid激活函数。

[0029] 步骤S25：对进行前馈操作获得顶层特征重复计算T个计算步骤，得到bottleneck模块中卷积块B经过注意力感知处理后的输出特征进入下一个bottleneck模块，最后作为骨干网络的输出送至neck模块和head模块进行训练。

[0030] 进一步地，所述步骤S3具体包括以下步骤：

[0031] 步骤S31：根据检测器的预测框结果，分析每个真值标注的正样本个数，从预测框中选出一致的正样本。首先，计算预测框和真值标注之间的eRF因子计算公式如下：

[0032]

[0033] 其中，i表示第i个预测框的序号，j表示第j个真值标注的序号，1[·]表示指标函数，Di,j表示第i个预测框中心点与第j个真值标注中心点之间的欧几里德距离，α是一个调节标量，范围在[0,1]内，Rk表示骨干网络的eRF半径，由骨干网络的卷积层决定。在真值标注的eRF区域内，可以反映预测框的质量，加速IoU损失的回归。

[0034] 步骤S32：为每个真值标注选择最近似的topk数量的预测框作为候选，令和分别表示第j个真值标注和第i个候选框之间的IoU值和eRF值，计算第j个真值标注的pos正样本质量每个真值标注都有N 值，代表正样本数量。的计算公式如下：

[0035]

[0036] 其中，表示向下取整操作，topk表示候选框的数量。

[0037] 步骤S33：为第j个真值标注选择个正样本，计算成本矩阵Mi,j，Mi,j表示第i个预测框和第j个真值标注之间的误差，对于每个第j个真值标注，有个预测框被选择作为正样本进行计算。Mi,j计算公式如下：

[0038] Mi,j＝(CorXi‑CorXj)2+(CorYi‑CorYj)2+(SWi‑SWj)2+(SHi‑SHj)2[0039] 其中，CorXi、CorYi、SWi和SHi表示第i个预测框中心点的x、y坐标、宽度和高度，CorXj、CorYj、SWj和SHj表示第j个真值标注中心点的x、y坐标、宽度和高度。

[0040] 进一步地，所述步骤S4具体包括以下步骤：

[0041] 步骤S41：计算预测框与真值标注之间的角度损失Λ，计算公式如下所示：

[0042]

[0043]

[0044] dh＝max(bygt,bypre)‑min(bygt,bypre)

[0045] 其中，dh表示预测框与真值标注之间的高度差，bxgt和bygt分别表示真值标注中心pre pre点的x、y坐标，bx 和by 分别表示预测框中心点的x、y坐标，θ表示预测框与真值标注中心点的直线距离。

[0046] 步骤S42：计算预测框与真值标注之间的距离损失Δ，计算公式如下所示：

[0047]

[0048]

[0049]

[0050] dw＝max(bxgt,bxpre)‑min(bygt,bypre)

[0051] 其中，dw表示预测框与真值标注之间的宽度差，ρx表示预测框与真值标注中心点之间以x轴为底边的夹角平方，ρy表示预测框与真值标注中心点之间以y轴为底边的夹角平方，γ是角度指数系数，γ＝2‑Λ。

[0052] 步骤S43：计算预测框与真值标注之间的形状损失Ω，计算公式如下所示：

[0053] Ω＝(1‑e‑kw)η+(1‑e‑kh)η

[0054]

[0055]

[0056] 其中，wpre和hpre分别表示预测框的宽和高，wgt和hgt分别表示真值标注的宽和高，kw宽度系数，kh表示高度系数，η是形状代价，表示对形状的关注度。

[0057] 步骤S44：由角度损失、距离损失和形状损失共同组成SIoU损失LSIoU，在LSIoU的基础上构建距离注意力，得到Wise‑SIoU损失LWSIoU，将损失结果反馈到网络中，最后得到垃圾检测结果。LWSIoU计算公式如下：

[0058]

[0059] LWSIoU＝exp(kw)LSIoU

[0060] 其中，IoU表示预测框和真值标注之间的交并比，exp(·)表示指数操作。

[0061] 与现有技术相比，本发明具有以下有益效果：

[0062] 1、通过马赛克数据增强方式增加垃圾数据集内小目标的数量，减少GPU显存，降低模型对图像的敏感度，提升模型的泛化性。

[0063] 2、在骨干网络卷积块内的顶层和底层特征之间引入自上而下的信息流促进更多上下文引导的特征激活，与静态卷积核注意力方法相比，在改变输入分辨率时的执行空间注意力更加鲁棒，模型对垃圾目标相关特征的感知能力更强。

[0064] 3、通过动态样本选择策略，考虑规模、距离、质量和其他因素，使用有效的感受野来合理化阳性样本的数量，平衡训练样本合理性，让每一个真值标注至少有一个正样本可以确保模型得到充分训练并提高从小目标中学习有效信息的能力。

[0065] 4、改进的Wise‑SIoU损失考虑匹配的方向，使预测框很快地移动到最近的x、y轴，帮助训练收敛过程和效果，构建距离注意力可以让预测框与真值标注重合较好的情况下显著降低其对中心点距离的关注。

附图说明

[0066] 图1是本发明实施例的方法实现流程图。

具体实施方式

[0067] 下面结合附图及实施例对本发明做进一步说明。

[0068] 应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

[0069] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0070] 如图1所示，本发明提供了一种基于注意力感知优化的垃圾目标检测方法，包括以下步骤：

[0071] 步骤S1：采集垃圾图像并对目标进行标注，使用马赛克增强对数据集进行数据增强，获得垃圾检测数据集，划分为验证集和训练集，训练集数据作为输入图片送入检测网络。具体包括以下步骤：

[0072] 步骤S11：采集垃圾图像，使用labelImg软件对单张图像中的垃圾目标进行标注，生成YOLO格式的标注文件，包括目标的类别下标，目标中心点x坐标、y坐标以及目标的宽度和高度信息，以归一化表示的格式保存为与图像同名的txt文件。包含垃圾目标的图像和对应的标注文件共同组成垃圾检测数据集，划分为验证集和训练集，训练集数据作为输入图片送入检测网络。

[0073] 步骤S12：使用马赛克增强方法对垃圾检测数据集进行数据增强，首先随机选取4张图片，通过随机缩放增加小目标的数量，然后进行随机裁剪和随机分布将4张缩放后的图片拼接成1张图。训练网络一次直接计算4张图片的数据，减少GPU显存，让Mini‑batch大小不需要很大就可以达到比较好的效果；

[0074] 步骤S2：构建基于注意力感知优化的垃圾检测模型，在特征提取骨干网络中增设轻量级的自顶向下的注意力感知模块，迭代生成注意力聚焦系数，通过通道和空间注意力，输出更多上下文相关的特征映射，提高模型对垃圾目标相关特征的感知能力。具体包括以下步骤：

[0075] 步骤S21：搭建基于注意力感知优化的YOLOv5神经网络模型，在骨干网络CSPDarknet53的bottleneck模块中设计轻量级的自顶向下的注意力感知模块。bottleneck模块由包含N个卷积层的卷积块B组成，首先，将卷积块B的底层特征通过前0
馈操作映射到顶层输出特征其中，C0、H0和W0分别表示输入特征X的通道
N
数、高度和宽度，CN、HN和WN分别表示输出特征X的通道数、高度和宽度。每个计算步骤t的操作可以总结为如下公式：

[0076]

[0077] 其中，t表示计算步骤的序号，t∈{1…T}，T表示计算步骤的总数。使用LN表示第N个卷积层操作，LN‑1表示第N‑1个卷积层操作，L1表示第1个卷积层操作，一共有N个卷积层操作，N为卷积块B中卷积层的数量，表示计算步骤t中输入的底层特征，表示计算步骤t中经过自顶而下前馈操作输出的顶层特征。

[0078] 步骤S22：将注意力感知模块中聚焦系数St的生成过程建模为顶层特征和底层特征的联合可学习变换。首先，使用无参数化的池化操作把和的空间维度分别压缩为一维通道向量vhigh和vlow，其中，然后，将这些向量分别送入不同的单隐藏层多层感知器(MLP)进行处理，将处理结果进行拼接，通过另一个MLP生成一维向量St，St表示输入特征的注意力聚焦系数。自顶向下的前馈运算无需依赖顶层或底层特征的通道数和空间维度，允许和具有不同的维度，是一种连接注意力，计算公式如下：

[0079]

[0080] 其中，g(·)表示可学习的转换模型，表示处理vhigh的MLP权重矩阵，r表示降低参数复杂度的缩小系数，表示处理vlow的MLP权重矩阵，表示生成St的MLP权重矩阵，ELU[·]表示ELU激活函数，APool(·)表
示自适应池化操作。

[0081] 步骤S23：当卷积块B的底部通道数量相对较大，需要更高参数效率的情况下，使用仅基于顶层特征映射的MLP来模拟St的生成，作为顶部注意力，计算公式如下：

[0082]

[0083] 综上所述，St的计算公式可以总结为如下所示：

[0084]

[0085] 步骤S24：使用注意力聚焦系数St对执行通道和空间注意力，突出显示应该在下一个计算步骤中被重视的一些通道。首先，将与经过sigmoid激活函数的St进行元素乘积操作，得到缩放通道后的特征然后，St作为一个1×1滤波器与进行逐点卷积操作，得到二维空间映射表示缩放特征中的显著空间。最后，
经过sigmoid激活函数处理，与进行元素乘积操作，实现在空间上的缩放，得到下一个计算步骤t+1的输入特征计算公式如下：

[0086]

[0087]

[0088]

[0089] 其中，表示元素乘积，*表示逐点卷积，σ(·)表示sigmoid激活函数。

[0090] 步骤S25：对进行前馈操作获得顶层特征重复计算T个计算步骤，得到bottleneck模块中卷积块B经过注意力感知处理后的输出特征进入下一个bottleneck模块，最后作为骨干网络的输出送至neck模块和head模块进行训练。

[0091] 步骤S3：通过动态样本选择策略，考虑规模、距离、质量和其他因素，使用有效的感受野来合理化阳性样本的数量，自动分析每个真值标注应有的正样本数量，平衡训练样本合理性。具体包括以下步骤：

[0092] 步骤S31：根据检测器的预测框结果，分析每个真值标注的正样本个数，从预测框中选出一致的正样本。首先，计算预测框和真值标注之间的eRF因子计算公式如下：

[0093]

[0094] 其中，i表示第i个预测框的序号，j表示第j个真值标注的序号，1[·]表示指标函数，Di,j表示第i个预测框中心点与第j个真值标注中心点之间的欧几里德距离，α是一个调节标量，范围在[0,1]内，Rk表示骨干网络的eRF半径，由骨干网络的卷积层决定。在真值标注的eRF区域内，可以反映预测框的质量，加速IoU损失的回归。

[0095] 步骤S32：为每个真值标注选择最近似的topk数量的预测框作为候选，令和分别表示第j个真值标注和第i个候选框之间的IoU值和eRF值，计算第j个真值标注的pos正样本质量每个真值标注都有N 值，代表正样本数量。的计算公式如下：

[0096]

[0097] 其中，表示向下取整操作，topk表示候选框的数量。

[0098] 步骤S33：为第j个真值标注选择个正样本，计算成本矩阵Mi,j，Mi,j表示第i个预测框和第j个真值标注之间的误差，对于每个第j个真值标注，有个预测框被选择作为正样本进行计算。Mi，j计算公式如下：

[0099] Mi,j＝(CorXi‑CorXj)2+(CorYi‑CorYj)2+(SWi‑SWj)2+(SHi‑SHj)2[0100] 其中，CorXi、CorYi、SWi和SHi表示第i个预测框中心点的x、y坐标、宽度和高度，CorXj、CorYj、SWj和SHj表示第j个真值标注中心点的x、y坐标、宽度和高度。

[0101] 步骤S4：利用Wise‑SIoU损失对所述基于注意力感知优化的垃圾目标检测网络进行多目标训练，得到训练模型，在验证集上进行推理，得到检测结果。具体包括以下步骤：

[0102] 步骤S41：计算预测框与真值标注之间的角度损失Λ，计算公式如下所示：

[0103]

[0104]

[0105] dh＝max(bygt，bypre)‑min(bygt，bypre)

[0106] 其中，dh表示预测框与真值标注之间的高度差，bxgt和bygt分别表示真值标注中心pre pre点的x、y坐标，bx 和by 分别表示预测框中心点的x、y坐标，θ表示预测框与真值标注中心点的直线距离。

[0107] 步骤S42：计算预测框与真值标注之间的距离损失Δ，计算公式如下所示：

[0108]

[0109]

[0110]

[0111] dw＝max(bxgt，bxpre)‑min(bygt，bypre)

[0112] 其中，dw表示预测框与真值标注之间的宽度差，ρx表示预测框与真值标注中心点之间以x轴为底边的夹角平方，ρy表示预测框与真值标注中心点之间以y轴为底边的夹角平方，γ是角度指数系数，γ＝2‑Λ。

[0113] 步骤S43：计算预测框与真值标注之间的形状损失Ω，计算公式如下所示：

[0114] Ω＝(1‑e‑kw)η+(1‑e‑kh)η

[0115]

[0116]

[0117] 其中，wpre和hpre分别表示预测框的宽和高，wgt和hgt分别表示真值标注的宽和高，kw宽度系数，kh表示高度系数，η是形状代价，表示对形状的关注度。

[0118] 步骤S44：由角度损失、距离损失和形状损失共同组成SIoU损失LSIoU，在LSIoU的基础上构建距离注意力，得到Wise‑SIoU损失LWSIoU，将损失结果反馈到网络中，最后得到垃圾检测结果。LWSIoU计算公式如下：

[0119]

[0120] LWSIoU＝exp(kw)LSIoU

[0121] 其中，IoU表示预测框和真值标注之间的交并比，exp(·)表示指数操作。

[0122] 以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

基于注意力感知优化的垃圾目标检测方法转让专利

申请号 : CN202310728879.0

文献号 : CN116469060B

文献日 : 2023-08-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 高凌

申请人 : 福建工蜂物联科技有限公司

摘要 :

权利要求 :

说明书 :