基于长尾分布数据的智能工业旋转检测方法及系统转让专利

申请号 : CN202311029464.0

文献号 : CN116777905B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈宇郭晶晶

申请人 : 厦门微亚智能科技股份有限公司厦门微图软件科技有限公司

摘要 :

本发明公开了一种基于长尾分布数据的智能工业旋转检测方法及系统,其包括:对原始数据进行尾部数据和头部数据的划分;通过Swin Transformer模型对头部数据进行特征提取;通过PANet网络进行特征融合,得到特征融合集;根据所述特征融合集中的特征图,生成自适应点集;通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到头部数据的缺陷目标的类别、位置和方向;重复执行上述步骤对尾部数据依次进行特征提取、特征融合、特征解析,得到尾部数据的缺陷目标的类别、位置和方向;最后对头部数据解析结果和尾部数据解析结果进行融合,得到融合输出结果;从而在不会大幅度提高计算复杂度造成运算负担的基础上,提高尾部

权利要求 :

1.一种基于长尾分布数据的智能工业旋转检测方法,其特征在于,包括以下步骤:步骤a.对原始数据进行类别分布的统计,得到各缺陷类别占总数据量的类别分布的比例;将占比小于或等于预设阈值的缺陷类别数据作为尾部数据,将占比大于预设阈值的缺陷类别数据作为头部数据;

步骤b.通过Swin Transformer模型对所述头部数据进行特征提取;

步骤c.通过PANet网络进行特征融合,得到特征融合集;其中,所述PANet网络包括一个自顶向下的特征金字塔网络和一个自底向上的特征融合层,通过该PANet网络对所述Swin Transformer模型提取的特征进行双向融合,得到融合特征;根据所述特征融合集中的特征图,生成自适应点集;

步骤d.通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到头部数据的缺陷目标的类别、位置和方向;

步骤e.重复执行步骤b至d对所述尾部数据依次进行特征提取、特征融合、特征解析,得到尾部数据的缺陷目标的类别、位置和方向;

步骤f.对所述头部数据解析结果和所述尾部数据解析结果进行融合,得到融合输出结果;

其中,所述步骤b进一步包括:

Stage 1,将所述头部数据或所述尾部数据分割成不重叠的数据组,每个数据组的特征维度为4*4*3=48;将所述数据组接入线性嵌入层进行降采样处理,并将其投影到任意维度,记为C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/4*W/4;其中,H为转换图像的高度,W为转换图像的宽度;

Stage 2,对降采样数据进行合并处理,并将相邻数据组进行串接,将串接特征接入线性嵌入层进行降采样处理,并将其投影为2C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/8*W/8;

Stage 3,重复操作步骤Stage 2,得到转换图像的分辨率为H/16*W/16,维度为4C;

Stage 4,重复操作步骤Stage 2,得到转换图像的分辨率为H/32*W/32,维度为8C。

2.根据权利要求1所述的一种基于长尾分布数据的智能工业旋转检测方法,其特征在于:所述步骤a中,还包括对原始数据进行预处理,所述预处理包括粗精洗处理、数据标注处理、数据增强处理的一种以上处理,其中:粗清洗处理,是指去除存在过曝、无目标区域、目标部分缺失或图像丢失问题的不可用数据;

数据标注处理,是指对缺陷目标进行缺陷类别的标注;

数据增强处理,包括单样本数据增强和/或多样本数据增强;其中,

所述单样本数据增强包括对原始数据进行图像随机旋转处理、图像随机裁剪处理、图像随机翻转处理中的一种以上处理;所述多样本数据增强是指对原始数据或者对所述单样本数据增强处理后的增强数据进行多样本的融合增强处理。

3.根据权利要求2所述的一种基于长尾分布数据的智能工业旋转检测方法,其特征在于:所述图像随机旋转处理,是根据原始数据和旋转角度生成仿射矩阵,并通过仿射变换公式计算得到旋转后的图像;计算公式为:其中, 表示原始图像, 表示旋转后的结果图像, 表示仿射矩

阵,表示原始图像的宽度,表示原始图像的高度,wrapAffine()表示仿射变化函数;

所述图像随机裁剪处理,计算公式为:

其中, 表示原始图像, 表示裁剪后的结果图像, 表示结

果图像的尺寸,L表示裁剪后的结果图像的最短边,为原始图像的宽度,为原始图像的高度;ImageResize()表示图像大小调整函数;

所述图像随机翻转处理,是指对原始图片进行水平翻转或垂直翻转;

并且,所述图像随机旋转处理或图像随机裁剪处理或图像随机翻转处理的随机性,是通过对单样本增强设置发生概率;

所述融合增强处理,是根据预设的发生概率从数据集中随机抽取两张以上图片作为一个数据组,对该数据组内的图片进行随机位置的mosaic数据增强,合成新的图片。

4.根据权利要求1所述的一种基于长尾分布数据的智能工业旋转检测方法,其特征在于:所述的步骤c中,对所述融合特征进行缺陷目标的边界点检测,以所述边界点作为中心,细化生成自适应点集;

所述的步骤d中,通过分类对象损失、定位损失和倒角距离CD,对获得的自适应点集进行精确调整,得到缺陷目标的检测框。

5.根据权利要求4所述的一种基于长尾分布数据的智能工业旋转检测方法,其特征在于,所述的步骤d中:是分类对象损失,计算公式如下:

其中 表示点集的总数, 表示focal loss, 表示基于学习点 的预测类置信度, 表示真实的类别;

是定位损失,计算方式如下:

其中 为正样本点集总数, 表示真实框的位置, 为定向多边形的GIoU损失,表示经过点集转换成方向多边形的预测置信度; 中, 表示真实的类别,方框 表示范围,即,真实的类别取值大于或等于1;

其中, 的计算方式为: ;为方向转换函数,为学习点集;

CD是倒角距离,计算公式如下:

其中,n表示学习点集的总数, 表示经过转换函数从学习点集获得的四个空间角点后,从两个相邻角点进行等间隔采样后的有序点集, 表示经过转换函数从真实框轮廓点集获得的四个空间角点后,从两个相邻角点进行等间隔采样后的有序点集;

其中 , ;通过CD倒角距离评估预测点集和真实框轮廓

点之间的方向差异,使得模型逐渐收敛贴近真实框轮廓。

6.根据权利要求1所述的一种基于长尾分布数据的智能工业旋转检测方法,其特征在于:所述步骤f中,所述头部数据解析结果是通过头部数据检测模型检测得到,所述尾部数据解析结果是通过尾部数据检测模型检测得到,将两个模型检测结果进行融合输出,得到所述融合输出结果。

7.一种基于长尾分布数据的智能工业旋转检测系统,其特征在于,包括:数据分割模块,用于对原始数据进行类别分布的统计,得到各缺陷类别占总数据量的类别分布的比例;将占比小于或等于预设阈值的缺陷类别数据作为尾部数据,将占比大于预设阈值的缺陷类别数据作为头部数据;

头部数据检测模型,其通过Swin Transformer模型对所述头部数据进行特征提取;通过PANet网络进行特征融合,得到特征融合集;其中,所述PANet网络包括一个自顶向下的特征金字塔网络和一个自底向上的特征融合层,通过该PANet网络对所述Swin Transformer模型提取的特征进行双向融合,得到融合特征;根据所述特征融合集中的特征图,生成自适应点集;通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到头部数据的缺陷目标的类别、位置和方向;

尾部数据检测模型,其通过Swin Transformer模型对所述尾部数据进行特征提取;通过PANet网络进行特征融合,得到特征融合集;其中,所述PANet网络包括一个自顶向下的特征金字塔网络和一个自底向上的特征融合层,通过该PANet网络对所述Swin Transformer模型提取的特征进行双向融合,得到融合特征;根据所述特征融合集中的特征图,生成自适应点集;通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到尾部数据的缺陷目标的类别、位置和方向;

融合输出模块,用于对所述头部数据解析结果和所述尾部数据解析结果进行融合,得到融合输出结果;

其中,所述Swin Transformer模型对所述头部数据或所述尾部数据进行特征提取,进一步包括:Stage 1,将所述头部数据或所述尾部数据分割成不重叠的数据组,每个数据组的特征维度为4*4*3=48;将所述数据组接入线性嵌入层进行降采样处理,并将其投影到任意维度,记为C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/4*W/4;其中,H为转换图像的高度,W为转换图像的宽度;

Stage 2,对降采样数据进行合并处理,并将相邻数据组进行串接,将串接特征接入线性嵌入层进行降采样处理,并将其投影为2C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/8*W/8;

Stage 3,重复操作步骤Stage 2,得到转换图像的分辨率为H/16*W/16,维度为4C;

Stage 4,重复操作步骤Stage 2,得到转换图像的分辨率为H/32*W/32,维度为8C。

8.一种设备,其特征在于,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于长尾分布数据的智能工业旋转检测程序,所述基于长尾分布数据的智能工业旋转检测程序被所述处理器执行时实现如权利要求1至6任一项所述的基于长尾分布数据的智能工业旋转检测方法的步骤。

说明书 :

基于长尾分布数据的智能工业旋转检测方法及系统

技术领域

[0001] 本发明涉及工业缺陷检测技术领域,特别是一种基于长尾分布数据的智能工业旋转检测方法及其应用该方法的系统。

背景技术

[0002] 随着工业领域和计算机视觉领域的技术发展,工业领域产品智能检测的场景逐渐丰富且多样,许多基于深度学习的缺陷检测方法也已广泛用于各种工业场景中。
[0003] 但是,基于深度学习的缺陷检测方法有很强的数据依赖性,在实际工业生产中,工业缺陷检测在数据采集阶段常会发生严重的长尾分布问题,其表现为采集到的各种缺陷数据数量不均衡,呈现一种长尾分布。
[0004] 长尾分布数据是一种偏态分布,即头部包含了大部分缺陷数据,尾部则包含了个别类数量很少的缺陷数据。在这种情况下,数据的长尾分布会导致在训练深度学习模型时,所使用的训练集获得的知识可能是不完整的,在尾部的缺陷类别往往会因为训练数据过少的原因,难以被检测模型所正确检测。
[0005] 然而,实际工业生产中对尾部类样本的误检往往会带来更大的损失。因此,对尾部类样本的研究具有重要的价值和意义。

发明内容

[0006] 本发明的主要目的在于提供了一种基于长尾分布数据的智能工业旋转检测方法及系统,旨在解决现有的带有旋转角度的缺陷目标的检测场景中,尾部类样本识别率较低的技术问题,通过对尾部类提供单独的旋转检测模型以提高尾部数据的识别准确度。
[0007] 为实现上述目的,本发明提供了一种基于长尾分布数据的智能工业旋转检测方法,包括以下步骤:
[0008] 步骤a.对原始数据进行类别分布的统计,得到各缺陷类别占总数据量的类别分布的比例;将占比小于或等于预设阈值的缺陷类别数据作为尾部数据,将占比大于预设阈值的缺陷类别数据作为头部数据;
[0009] 步骤b.通过Swin Transformer模型对所述头部数据进行特征提取;
[0010] 步骤c.通过PANet网络进行特征融合,得到特征融合集;根据所述特征融合集中的特征图,生成自适应点集;
[0011] 步骤d.通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到头部数据的缺陷目标的类别、位置和方向;
[0012] 步骤e.重复执行步骤b至d对所述尾部数据依次进行特征提取、特征融合、特征解析,得到尾部数据的缺陷目标的类别、位置和方向;
[0013] 步骤f.对所述头部数据解析结果和所述尾部数据解析结果进行融合,得到融合输出结果。
[0014] 优选的,所述步骤a中,还包括对原始数据进行预处理,所述预处理包括粗精洗处理、数据标注处理、数据增强处理的一种以上处理,其中:
[0015] 粗清洗处理,是指去除存在过曝、无目标区域、目标部分缺失或图像丢失问题的不可用数据;
[0016] 数据标注处理,是指对缺陷目标进行缺陷类别的标注;
[0017] 数据增强处理,包括单样本数据增强和/或多样本数据增强;其中,[0018] 所述单样本数据增强包括对原始数据进行图像随机旋转处理、图像随机裁剪处理、图像随机翻转处理中的一种以上处理;所述多样本数据增强是指对原始数据或者对所述单样本数据增强处理后的增强数据进行多样本的融合增强处理。
[0019] 优选的,所述图像随机旋转处理,是根据原始数据和旋转角度生成仿射矩阵,并通过 仿射变换公式计算得到旋转后的图像;计算公式为:
[0020]
[0021] 其中, 表示原始图像, 表示旋转后的结果图像, 表示仿射矩阵,表示原始图像的宽度,表示原始图像的高度,wrapAffine()表示仿射变化函数;
[0022] 所述图像随机裁剪处理,计算公式为:
[0023]
[0024] 其中, 表示原始图像, 表示裁剪后的结果图像, 表示结果图像的尺寸,L表示裁剪后的结果图像的最短边,为原始图像的宽度,为原始图像的高度;ImageResize()表示图像大小调整函数;
[0025] 所述图像随机翻转处理,是指对原始图片进行水平翻转或垂直翻转;
[0026] 并且,所述图像随机旋转处理或图像随机裁剪处理或图像随机翻转处理的随机性,是通过对单样本增强设置发生概率;
[0027] 所述融合增强处理,是根据预设的发生概率从数据集中随机抽取两张以上图片作为一个数据组,对该数据组内的图片进行随机位置的mosaic数据增强,合成新的图片。
[0028] 优选的,所述步骤b进一步包括:
[0029] Stage 1,将所述头部数据或所述尾部数据分割成不重叠的数据组,每个数据组的特征维度为4*4*3=48;将所述数据组接入线性嵌入层进行降采样处理,并将其投影到任意维度,记为C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/4*W/4;其中,H为转换图像的高度,W为转换图像的宽度;
[0030] Stage 2,对降采样数据进行合并处理,并将相邻数据组进行串接,将串接特征接入线性嵌入层进行降采样处理,并将其投影为2C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/8*W/8;
[0031] Stage 3,重复操作步骤Stage 2,得到转换图像的分辨率为H/16*W/16,维度为4C;
[0032] Stage 4,重复操作步骤Stage 2,得到转换图像的分辨率为H/32*W/32,维度为8C。
[0033] 优选的,所述步骤c中,所述PANet网络包括一个自顶向下的特征金字塔网络和一个自底向上的特征融合层,通过该PANet网络对所述Swin Transformer模型提取的特征进行双向融合,得到融合特征。
[0034] 优选的,所述的步骤c中,对所述融合特征进行缺陷目标的边界点检测,以所述边界点作为中心,细化生成自适应点集;所述的步骤d中,通过分类对象损失、定位损失和倒角距离CD,对获得的自适应点集进行精确调整,得到缺陷目标的检测框。
[0035] 优选的,所述的步骤d中:
[0036] 分类对象损失计算公式如下:
[0037]
[0038] 其中 表示点集的总数, 表示focal loss, 表示基于学习点 的预测类置信度, 表示真实的类别;
[0039] 是定位损失的计算方式如下:
[0040]
[0041] 其中 为正样本点集总数, 表示真实框的位置, 为定向多边形的GIoU损失, 表示经过点集转换成方向多边形的预测置信度; 中, 表示真实的类别,方框 表示范围,即,真实的类别取值大于或等于1;
[0042] 其中, 的计算方式为: ;为方向转换函数,为学习点集;
[0043] CD倒角距离的计算公式如下:
[0044]
[0045]
[0046] 其中,n表示学习点集的总数, 表示经过转换函数从学习点集获得的四个空间角点后,从两个相邻角点进行等间隔采样后的有序点集, 为表示经过转换函数从真实框轮廓点集获得的四个空间角点后,从两个相邻角点进行等间隔采样后的有序点集;
[0047] 其中 , ;通过该CD倒角距离评估预测点集和真实框轮廓点之间的方向差异,使得模型逐渐收敛贴近真实框轮廓。
[0048] 优选的,所述步骤f中,所述头部数据解析结果是通过头部数据检测模型检测得到,所述尾部数据解析结果是通过尾部数据检测模型检测得到,将两个模型检测结果进行融合输出,得到所述融合输出结果。
[0049] 与所述基于长尾分布数据的智能工业旋转检测方法相对应的,本发明提供一种基于长尾分布数据的智能工业旋转检测系统,其包括:
[0050] 数据分割模块,用于对原始数据进行类别分布的统计,得到各缺陷类别占总数据量的类别分布的比例;将占比小于或等于预设阈值的缺陷类别数据作为尾部数据,将占比大于预设阈值的缺陷类别数据作为头部数据;
[0051] 头部数据检测模型,其通过Swin Transformer模型对所述头部数据进行特征提取;通过PANet网络进行特征融合,得到特征融合集;根据所述特征融合集中的特征图,生成自适应点集;通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到头部数据的缺陷目标的类别、位置和方向;
[0052] 尾部数据检测模型,其通过Swin Transformer模型对所述尾部数据进行特征提取;通过PANet网络进行特征融合,得到特征融合集;根据所述特征融合集中的特征图,生成自适应点集;通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到尾部数据的缺陷目标的类别、位置和方向;
[0053] 融合输出模块,用于对所述头部数据解析结果和所述尾部数据解析结果进行融合,得到融合输出结果。
[0054] 此外,为实现上述目的,本发明还提供一种设备,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于长尾分布数据的智能工业旋转检测程序,所述基于长尾分布数据的智能工业旋转检测程序被所述处理器执行时实现如上文所述的基于长尾分布数据的智能工业旋转检测方法的步骤。
[0055] 本发明的有益效果是:
[0056] (1)本发明针对工业数据长尾分布问题,为长尾分布中会造成识别准确度较低的尾部数据提供单独的旋转检测模型以提高整体数据的识别准确度;
[0057] (2)本发明的检测方法采用基于Oriented RepPoints方法和Swin Transformer (SwinT)模型的旋转目标检测架构,通过在旋转目标检测架构中引入旋转角度,形成带旋转角度的四边形框对缺陷进行框定,加少了背景区域的混入同时降低了在密集的带有旋转角度的缺陷的场景下的漏检;
[0058] (3)本发明通过使用了SwinT作为主干网络其在保证性能优于ResNet‑50的前提下和其计算复杂度相当,因此在检测架构中单独为尾部数据提供一个检测器并不会大幅度提高计算复杂度造成运算负担;
[0059] (4)本发明的单样本数据增强和多样本数据增强的方法,能够丰富图像多样性;
[0060] (5)本发明基于Oriented RepPoints方法采用自适应点集作为细粒度表示并引入转化函数来捕捉存在方向变化的缺陷目标的几何结构,来对旋转目标进行更精准的定位和分类。

附图说明

[0061] 此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0062] 图1为本发明基于长尾分布数据的智能工业旋转检测方法的流程简图(头部数据/尾部数据);
[0063] 图2为本发明实施例基于长尾分布数据的智能工业旋转检测方法的数据增强策略示意图;
[0064] 图3为本发明实施例PANet的金字塔网络的自适应点集生成过程示意图;
[0065] 图4为本发明实施例PANet的特征融合层的融合过程示意图;
[0066] 图5为本发明实施例的自适应点集的细化过程示意图。

具体实施方式

[0067] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0068] 随着深度学习算法在工业缺陷检测领域的发展应用及大规模工业场景的发现,如机械零件和弯曲字符的识别检测等都需要对带有旋转角度的目标进行检测。对于该类带有旋转角度的缺陷目标的检测,如果使用常用的一些水平四边形框作为检测框对缺陷进行框定会引发以下两个问题,第一是检测到的目标中无关背景太多,第二是密集场景下很容易造成漏检;同时,工业检测数据的长尾分布问题,一直是影响工业智能检测准确度不可避免的问题,过少的尾部数据造成整体数据的类别不均衡情况导致对尾部数据的识别准确度较低。
[0069] 为了解决上述问题,本发明提供一种基于长尾分布数据的智能工业旋转检测方法,其包括以下步骤:
[0070] 步骤a.对原始数据进行类别分布的统计,得到各缺陷类别占总数据量的类别分布的比例;将占比小于或等于预设阈值的缺陷类别数据作为尾部数据,将占比大于预设阈值的缺陷类别数据作为头部数据;
[0071] 步骤b.通过Swin Transformer模型对所述头部数据进行特征提取;
[0072] 步骤c.通过PANet网络进行特征融合,得到特征融合集;根据所述特征融合集中的特征图,生成自适应点集;
[0073] 步骤d.通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到头部数据的缺陷目标的类别、位置和方向;
[0074] 步骤e.重复执行步骤b至d(如图1所示),对所述尾部数据依次进行特征提取、特征融合、特征解析,得到尾部数据的缺陷目标的类别、位置和方向;
[0075] 步骤f.对所述头部数据解析结果和所述尾部数据解析结果进行融合,得到融合输出结果。
[0076] 所述步骤a中,还包括对原始数据进行预处理,所述预处理包括粗精洗处理、数据标注处理、数据增强处理的一种以上处理,其中:
[0077] 粗清洗处理,是指去除存在过曝、无目标区域、目标部分缺失或图像丢失问题的不可用数据;所述粗清洗处理能够消除或降低工业产线拍摄环境和设备等因素的影响。
[0078] 数据标注处理,是指对缺陷目标进行缺陷类别的标注,本实施例是通过专家基于经验进行标注;
[0079] 数据增强处理,包括单样本数据增强和/或多样本数据增强(如图2所示);其中,[0080] 单样本增强包括以下内容:
[0081] 设原始图片为 , 宽高分别为w,h,增广后的图片为 。
[0082] 所述单样本数据增强包括对原始数据进行图像随机旋转处理、图像随机裁剪处理、图像随机翻转处理中的一种以上处理;所述多样本数据增强是指对原始数据或者对所述单样本数据增强处理后的增强数据进行多样本的融合增强处理。
[0083] 所述图像随机旋转处理,是根据原始数据和旋转角度生成仿射矩阵,并通过仿射变换公式计算得到旋转后的图像;计算公式为:
[0084]
[0085] 其中, 表示原始图像, 表示旋转后的结果图像, 表示仿射矩阵,表示原始图像的宽度,表示原始图像的高度,wrapAffine()表示仿射变化函数;
[0086] 具体的, 是一个2*3的矩阵,用于描述原始图像与结果图像的点之间的映射关系;本实施例中, 是根据原始图像和旋转角度生成的仿射矩阵。 ()函数用于实现图像的翻转(Flip)、旋转(Rotations)、平移(Translations)、缩放(Scale operations)等。例如:
[0087] 图像旋转的主要步骤包括:
[0088] 1、根据旋转角度和旋转中心获取旋转矩阵;
[0089] 2、根据旋转矩阵进行仿射变换,即可实现任意角度和任意中心的旋转效果。旋转矩阵的形式如下:
[0090]
[0091] 其中,
[0092] α=scale·cosθ
[0093] β=scale·sinθ
[0094] 其中,θ为旋转角度,scale为缩放因子,center.x表示旋转中心的x坐标,center.y表示旋转中心的y坐标。
[0095] 图像平移的主要步骤包括:
[0096] 1、定义好图像的平移矩阵;
[0097] 2、分别指定x方向和y方向上的平移量tx和ty。
[0098] 平移矩阵的形式如下:
[0099]
[0100] 所述图像随机裁剪处理,计算公式为:
[0101]
[0102] 其中, 表示原始图像, 表示裁剪后的结果图像, 表示结果图像的尺寸,L表示裁剪后的结果图像的最短边,为原始图像的宽度,为原始图像的高度;ImageResize()表示图像大小调整函数;
[0103] 所述图像随机翻转处理,是指对原始图片进行水平翻转或垂直翻转;
[0104] 图像旋转:是指在平面内将某个图形绕一个定点按某个方向转动一个角度。图像翻转:是指垂直于某一物体所在平面做任意旋转。本实施例中使用transpose()函数进行翻转处理。
[0105] 并且,所述图像随机旋转处理或图像随机裁剪处理或图像随机翻转处理的随机性,是通过对单样本增强设置发生概率;若发生概率为0.5表示每张图有50%的概率进行以上单样本数据增强。
[0106] 所述融合增强处理,是根据预设的发生概率从数据集中随机抽取两张以上图片作为一个数据组(batch),对该数据组内的图片进行随机位置的mosaic数据增强,合成新的图片。
[0107] 本实施例中,从数据集中随机抽取4张图片作为一个batch,对4张随机抽取的图片,进行随机位置的裁剪拼接,合成新的图片。同样地,每张图有50%的概率被抽入batch进行mosaic数据增强。
[0108] 本实施例中使用基于Anchor‑free的Oriented Reppoints算法,其中采用Swin Transformer模型(适用于尺度多变等复杂场景)作为Backbone主干网络,路径聚合网络PANet作为Neck进行特征提取。采用自适应点集作为细粒度表示并引入转化函数来捕捉存在方向变化的缺陷目标的几何结构。
[0109] 具体的,所述步骤b进一步包括:
[0110] Stage 1,将所述头部数据或所述尾部数据分割成不重叠的数据组,每个数据组的特征维度为4*4*3=48;将所述数据组接入线性嵌入层进行降采样处理,并将其投影到任意维度,记为C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/4*W/4;其中,H为转换图像的高度,W为转换图像的宽度;
[0111] Stage 2,对降采样数据进行合并处理,并将相邻数据组进行串接,将串接特征接入线性嵌入层进行降采样处理,并将其投影为2C维度;后接入自注意力块进行特征转换,得到转换图像的分辨率为H/8*W/8;
[0112] Stage 3,重复操作步骤Stage 2,得到转换图像的分辨率为H/16*W/16,维度为4C;
[0113] Stage 4,重复操作步骤Stage 2,得到转换图像的分辨率为H/32*W/32,维度为8C。
[0114] 本实施例中,图像首先通过Patch Partition 输入的 RGB 图像分割成不重叠的patch(每个patch为一个token),其中H和W代表输入到网络的图像的长和宽。本实施例使用4*4的patch,因此每个patch的特征维度为4 *4*3 = 48。后接入线性嵌入层(Learning Embedding)应用于这个原始值特征,以将其投影到任意维度(记为 C)。这些 patch token来到自注意块(Swin Transformer blocks)。 从线性嵌入层到自注意块被称为SwinT架构的“Stage 1”。
[0115] 进入到“Stage 2”为了产生如卷积一样的分层表示,通过patch合并层(patch merging)缩减token 的数量。通过patch merging (相邻patch进行合并)将每组2*2 相邻 patch进行串接,并在 4C 维串接特征上应用线性层。这将 token 数量减少了 2*2=4 的倍数(2*分辨率下采样),并且输出维度设置为 2C。后接入自注意力块进行特征转换,此时分辨率保持在 H/8 *W/8 。以上操作为SwinT 架构的“Stage 2”。
[0116] 接下来的“Stage 3”和“Stage 4”均为“Stage 2”操作的两次重复操作,输出分辨率分别为 H/16*W/16 和 H/32*W/32 。
[0117] 经过以上的四个阶段共同产生层级表示,使得SwinT具有了与卷积网络相似的特征图分辨率,从而可作为各类视觉任务的backbone。
[0118] 所述步骤c中,所述PANet网络(Path Aggregation Network,路径聚合网络)包括一个自顶向下的特征金字塔网络(a)和一个自底向上的特征融合层(b),通过该PANet网络对所述Swin Transformer(SwinT)模型提取的特征进行双向融合,得到融合特征。
[0119] 其中,(a)为金字塔网络(Feature Pyramid Networks,FPN网络),其具体步骤为,通过SwinT模型提取出原始图像各个阶段的特征图{C2,C3,C4,C5}。FPN网络自顶向下进行特征图上采样和横向连接,得到特征图集合 {P5, P4, P3, P2}。
[0120] 以图3的P5和P4为示例,首先对 C5 使用 256 个 1*1 的卷积运算得到 P5,然后对 F5 进行 256个 3*3 的卷积运算得到 P5,然后将对 F5 进行两倍上采样得到的结果与 C4 经过 256 个 1*1 卷积运算得到的结果相加,得到 F4,再将 F4 进行 256个 3*3 卷积计算得到 P4;使用同样的方法计算得到 P2 和 P3;最后对 P5 进行最大池化操作,得到 P6;最终所有特征图构成集合 {P5, P4, P3, P2}。
[0121] 如图4所示,自底向上的特征融合层(b)采用下采样和横向连接,以与FPN网络同样的方式反方向,自底向上的进行卷积运算和下采样,最终得到特征图融合集{N5,N4,N3,N2}。
[0122] 所述的步骤c中,对所述融合特征进行缺陷目标的边界点检测,以所述边界点作为中心,细化生成自适应点集;具体的,如图5所示,所述自适应点集的生成包括两个阶段:
[0123] 第一阶段,将经过步骤c得到特征融合集中的特征图经过可变形卷积,在特征图上的每个点产生偏移量(offset1),所述偏移量带有方向信息,并将偏移量加到对应点位上生成对应的点集1(RepPoints1);
[0124] 第二阶段,将第一阶段得到的偏移量再经过可变形卷积得到新的偏移量(offset2),将新得到的偏移量加在点集1对应点位上生点集(RepPoints2)。
[0125] 所述的步骤d中,通过分类对象损失、定位损失和倒角距离CD,对获得的自适应点集进行精确调整,得到缺陷目标的检测框。
[0126] 所述的步骤d中,通过细化过程,将点集合带入方向转换函数g,即可得到点集转换为方向多边形的预测置信度,以及计算分类对象损失、定位损失和倒角距离,不断训练更新直至模型收敛。
[0127] 具体细化过程计算公式如下:
[0128] 分类对象损失计算公式如下:
[0129]
[0130] 其中 表示点集的总数, 表示focal loss, 表示基于学习点 的预测类置信度, 表示真实的类别;
[0131] 是定位损失的计算方式如下:
[0132]
[0133] 其中 为正样本点集总数, 表示真实框的位置, 为定向多边形的GIoU损失, 表示经过点集转换成方向多边形的预测置信度; 中, 表示真实的类别,方框 表示范围,即,真实的类别取值大于或等于1;
[0134] 其中, 的计算方式为: ;为方向转换函数(oriented conversion function),为学习点集;
[0135] CD(Chamfer distance)倒角距离的计算公式如下:
[0136]
[0137]
[0138] 其中,n表示学习点集的总数, 表示经过转换函数从学习点集获得的四个空间角点后,从两个相邻角点进行等间隔采样后的有序点集, 为表示经过转换函数从真实框轮廓点集获得的四个空间角点后,从两个相邻角点进行等间隔采样后的有序点集;
[0139] 其中 , ;通过该CD倒角距离评估预测点集和真实框轮廓点之间的方向差异,使得模型逐渐收敛贴近真实框轮廓。
[0140] 本实施例的Oriented RepPoints模型是基于anchor‑free的key‑points方法,其核心思想是通过检测目标的边界点(如:角点)即点集而非主流的包围盒方向回归,再将边界点配对组合成目标的检测框。这种方法引入了对不同方向、形状和姿态的自适应点表示,与传统的包围盒方法相比,Oriented RepPoints能够捕获任意方向实例的几何信息做到准确分类定位。具体地说,该方法从中心点生成初始自适应点,并对其进行进一步细化以适应任意旋转方向的目标。
[0141] 所述步骤f中,所述头部数据解析结果是通过头部数据检测模型检测得到,所述尾部数据解析结果是通过尾部数据检测模型检测得到,将两个模型检测结果进行融合输出,得到所述融合输出结果。
[0142] 尾部数据除了数量占比极小外,其分布占比也很低(本实施例中定义为15%以下),如果不对尾部数据进行单独建模处理,意味着尾部数据仅参与了15%左右(甚至更低)的模型训练过程,同时其产生的梯度也会被头部类别数据淹没,这导致尾部样本对指导网络训练的贡献极低,造成尾部类别数据识别准确率较低。本实施例中尾部样本模型采用和上文相同的方案,单独使用尾部样本训练一个检测模型以提高尾部数据的检测准确度,最终将两个模型检测结果进行融合输出,得到最终的检测结果,从而提高整体模型的准确率。
[0143] 本发明还对应提供一种基于长尾分布数据的智能工业旋转检测系统,其包括:
[0144] 数据分割模块,用于对原始数据进行类别分布的统计,得到各缺陷类别占总数据量的类别分布的比例;将占比小于或等于预设阈值的缺陷类别数据作为尾部数据,将占比大于预设阈值的缺陷类别数据作为头部数据;
[0145] 头部数据检测模型,其通过Swin Transformer模型对所述头部数据进行特征提取;通过PANet网络进行特征融合,得到特征融合集;根据所述特征融合集中的特征图,生成自适应点集;通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到头部数据的缺陷目标的类别、位置和方向;
[0146] 尾部数据检测模型,其通过Swin Transformer模型对所述尾部数据进行特征提取;通过PANet网络进行特征融合,得到特征融合集;根据所述特征融合集中的特征图,生成自适应点集;通过Oriented RepPoints模型对所述自适应点集进行特征解析,得到尾部数据的缺陷目标的类别、位置和方向;
[0147] 融合输出模块,用于对所述头部数据解析结果和所述尾部数据解析结果进行融合,得到融合输出结果。
[0148] 本发明还提供一种设备,该设备包括如上所述的基于长尾分布数据的智能工业旋转检测系统,其对应地,可以执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参见上述实施例中的相关记载,此处不再赘述。
[0149] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例及设备实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0150] 并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0151] 上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。