一种基于数据混合的工业领域自适应方法转让专利

申请号 : CN202211424993.6

文献号 : CN115496972B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 丁贵广熊翊哲陈辉陈仕江

申请人 : 杭州涿溪脑与智能研究所清华大学

摘要 :

本发明提出一种基于数据混合的工业领域自适应方法,包括,获取待训练的图像数据集,图像数据集包括源域数据和目标域数据;构建基线模型,通过图像数据集对基线模型进行训练,并通过最小化基本损失函数对基线模型进行优化,获取初始图像分类模型;对图像数据集进行重新构造,通过信息熵筛选的方法,获取源域数据和目标域数据中较高置信度的数据,并通过伪标签与MixUp数据增广的方法获取包含较高置信度的数据的融合分布的有监督数据集;通过有监督数据集对初始图像分类模型进行训练,获取完成的图像分类模型。通过本发明提出的方法,解决了标注数量较少条件下的工业场景无监督领域自适应问题。

权利要求 :

1.一种基于数据混合的工业领域自适应方法,其特征在于,包括以下步骤:获取待训练的图像数据集,所述图像数据集包括源域数据和目标域数据;

构建基线模型,通过所述图像数据集对所述基线模型进行训练,并通过最小化基本损失函数对所述基线模型进行优化,获取初始图像分类模型;

对所述图像数据集进行重新构造,通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中高置信度的数据,并通过伪标签与MixUp数据增广的方法获取包含所述高置信度的数据的融合分布的有监督数据集;

通过所述有监督数据集对所述初始图像分类模型进行训练,获取完成的图像分类模型;

在构建基线模型之后,还包括:

获取源域特征库存储图像数据集中所有的源域特征,将所述特征库中的高置信度源域特征 送至所述基线模型的分类头与Softmax层中,得到与 对应的预测概率分布 ,通过使用注意力机制构造源域原型特征:;

所述通过最小化所述基本损失函数对所述基线模型进行训练,获取初始图像分类模型,包括:通过采用伪标签训练的方法加强所述基线模型对类别信息的学习;

采用旋转预测代理任务的方法加强所述基线模型对图像特征的学习;

所述对所述图像数据集进行重新构造,包括:选取用于融合的源域与目标域特征;

使用MixUp数据增广对所述源域与目标域特征的数据进行融合;

所述通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中高置信度的数据,包括:采用置信度过滤的方法,筛选置信度高的目标域特征;

使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵低的目标域特征集合 :,

通过伪标签产生用于融合的目标域特征标签,构造用于融合的目标域集合其中 即为图像特征 对应的图像;

所述通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中高置信度的数据,包括:对有标注的源域特征,通过特征提取器与瓶颈层的前馈过程生成的图像特征 对应的图像 与其对应标注 构造的用于融合的有标注源域集合 参与后续融合过程;

对于无标注的源域特征,采用网络分类概率预测生成的伪标签作为这部分特征的标签:其中, ;

使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵低的无标注源域特征集合 ,同时构造用于融合的无标注源域集合 ;

所述通过伪标签与MixUp数据增广的方法获取包含所述高置信度数据的融合分布的有监督数据集,包括:获取融合数据集:

采用交叉熵监督所述融合数据集:

2.根据权利要求1所述的方法,其特征在于,在获取完成的图像分类模型之后,还包括:获取待分类图像数据;

将所述待分类图像数据输入所述图像分类模型,获取图像分类结果。

3.一种基于数据混合的工业领域自适应装置,其特征在于,包括以下模块:获取模块,用于获取待训练的图像数据集,所述图像数据集包括源域数据和目标域数据;

构建模块,用于构建基线模型,通过所述图像数据集对所述基线模型进行训练,并通过最小化基本损失函数对所述基线模型进行优化,获取初始图像分类模型;

重构模块,用于对所述图像数据集进行重新构造,通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中高置信度的数据,并通过伪标签与MixUp数据增广的方法获取包含所述高置信度的数据的融合分布的有监督数据集;

训练模块,用于通过所述有监督数据集对所述初始图像分类模型进行训练,获取完成的图像分类模型;

在构建基线模型之后,还包括:

获取源域特征库存储图像数据集中所有的源域特征,将所述特征库中的高置信度源域特征 送至所述基线模型的分类头与Softmax层中,得到与 对应的预测概率分布 ,通过使用注意力机制构造源域原型特征:;

所述通过最小化所述基本损失函数对所述基线模型进行训练,获取初始图像分类模型,包括:通过采用伪标签训练的方法加强所述基线模型对类别信息的学习;

采用旋转预测代理任务的方法加强所述基线模型对图像特征的学习;

所述对所述图像数据集进行重新构造,包括:选取用于融合的源域与目标域特征;

使用MixUp数据增广对所述源域与目标域特征的数据进行融合;

所述通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中高置信度的数据,包括:采用置信度过滤的方法,筛选置信度高的目标域特征;

使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵低的目标域特征集合 :,

通过伪标签产生用于融合的目标域特征标签,构造用于融合的目标域集合其中 即为图像特征 对应的图像;

所述通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中高置信度的数据,包括:对有标注的源域特征,通过特征提取器与瓶颈层的前馈过程生成的图像特征 对应的图像 与其对应标注 构造的用于融合的有标注源域集合 参与后续融合过程;

对于无标注的源域特征,采用网络分类概率预测生成的伪标签作为这部分特征的标签:其中, ;

使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵低的无标注源域特征集合 ,同时构造用于融合的无标注源域集合 ;

所述通过伪标签与MixUp数据增广的方法获取包含所述高置信度数据的融合分布的有监督数据集,包括:获取融合数据集:

采用交叉熵监督所述融合数据集:

4.根据权利要求3所述的装置,其特征在于,还包括分类模块,用于:获取待分类图像数据;

将所述待分类图像数据输入所述图像分类模型,获取图像分类结果。

说明书 :

一种基于数据混合的工业领域自适应方法

技术领域

[0001] 本发明属于图像分类领域。

背景技术

[0002] 本发明所述工业场景无监督领域自适应问题隶属于计算机视觉领域中的少样本无监督领域自适应(Few‑shot Unsupervised Domain Adaptation)任务范畴。少样本无监督领域自适应技术由无监督领域自适应(Unsupervised Domain Adaptation)技术发展而来。
[0003] 无监督领域自适应技术通过对齐不同领域的分布完成深度模型的领域自适应。主流的无监督领域自适应技术分别从优化领域间特征分布差异的统计量与对抗学习两种方向出发解决问题。在优化领域间特征分布差异的统计量方面,2012年,Gretton等人提出了衡量领域间差异的MMD距离,该工作证明了MMD距离测量领域间差异的有效性。2015年起,Long等人将MMD这一标准应用于深度网络当中,通过深度自适应网络完成领域对齐的自适应目标,提出了经典的网络模型,这些模型达到了多种无监督领域自适应数据集在当时的最佳分类效果。对抗学习是完成无监督领域自适应任务的另外一条途径。2015年,Ganin的工作设置领域分类器判断样例特征所在领域,促进网络骨干(Backbone)对不同领域特征建模的对齐。2017年,Tzeng提出ADDA训练模式,更好地利用了无监督领域自适应任务中存在的大量源域标注数据。
[0004] 现有的少样本无监督领域自适应技术脱胎于上述无监督领域自适应技术,吸收了上述工作中自监督学习的思想和深度领域自适应模型的训练范式。2020年,Kim最先提出并定义了少样本无监督领域自适应问题:深度视觉模型需要在源域仅有少量甚至极少量图像有标注的前提下,利用部分标注的源域数据,与所有无标注目标域数据进行训练,并完成目标域图像上的视觉任务。Kim通过增大领域内样例间区分度(In‑Domain InstanceDiscrimination)与匹配领域间样例(Cross‑Domain Matching)的方法促使模型匹配不同领域内的图像特征、区分相同领域内的图像特征,进而促进领域间特征对齐。然而,Kim的方法学习的基本单元是样例本身,而实际数据中有许多困难样本,这些样本会对模型的学习过程带来较大的不确定性。2021年,Yue等人提出了一种端到端的少源域标注无监督领域自适应训练模型 PCS‑FUDA。与 CDS 模型采用图像样例作为基本训练单位不同,PCS‑FUDA 分别针对不同领域图像进行了无监督聚类,并使用原型学习的方法,根据聚类结果拉近源域与目标域,同时增强领域内类别的区。Yue的方法达到了现在的少样本无监督领域自适应问题上的最好效果,但也存在一些非常明显的缺点:方法使用的K‑聚类(K‑Means)占用的训练时间过长,方法本身对显存要求较高。
[0005] 工业领域的实际需求给领域自适应模型的设计带来了较为特殊的挑战。传统的工业视觉模型对生产环境的要求较为苛刻,不同的流水线上数据分布的差异足以对传统方法训练的工业视觉模型造成严重干扰,使得模型在非训练环境数据上的表现效果变差。与此同时,实际工业生产中,新生产环境(如新生产线上)产生的数据往往没有足够多的时间、人力和财力进行大规模的高质量标注。实际生产时通常采用旧生产环境的数据训练源模型,并在新产线上对该训练模型进行领域自适应学习。直接标注所有的旧生产环境数据训练一个旧环境可靠的模型同样是不可取的。工业生产数据的高质量标注需要大量专业相关人员的参与,因此,对大规模的旧产线数据进行大规模标注需要耗费大量而不切实际的时间和金钱,大部分工业领域的小微企业无法负担。因此,一般情况下,旧产线的数据仅有一小部分经过标注,这也使得领域自适应技术面临少样本的问题。在模型训练过程中,工业生产环境对模型的训练速度和训练稳定性要求非常高。这是因为工业生产对实际生产的效率要求非常高,工业视觉模型的训练与部署需要跟上实际工业生产的效率要求。因此,在新生产环境下,企业需要用尽可能少的训练次数、尽可能短的训练时间完成一个较为成熟的新环境模型训练。Kim等人提出的技术训练鲁棒性较差,需要通过多次实验得到较为可靠的目标域模型;Yue等人提出的技术训练耗时较长,不断迭代的K‑Means聚类模型在大规模工业数据上需要耗费相当长的训练时间和硬件资源。因此,设计新的适用于工业领域自适应的深度学习方法具有相当的必要性。

发明内容

[0006] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007] 为此,本发明的目的在于提出一种基于数据混合的工业领域自适应方法,用于解决标注数量较少条件下的工业场景无监督领域自适应问题。
[0008] 为达上述目的,本发明第一方面实施例提出了一种基于数据混合的工业领域自适应方法,包括:
[0009] 获取待训练的图像数据集,所述图像数据集包括源域数据和目标域数据;
[0010] 构建基线模型,通过所述图像数据集对所述基线模型进行训练,并通过最小化基本损失函数对所述基线模型进行优化,获取初始图像分类模型;
[0011] 对所述图像数据集进行重新构造,通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中较高置信度的数据,并通过伪标签与MixUp数据增广的方法获取包含所述较高置信度的数据的融合分布的有监督数据集;
[0012] 通过所述有监督数据集对所述初始图像分类模型进行训练,获取完成的图像分类模型。
[0013] 另外,根据本发明上述实施例的一种基于数据混合的工业领域自适应方法还可以具有以下附加的技术特征:
[0014] 进一步地,在本发明的一个实施例中,在获取完成的图像分类模型之后,还包括:
[0015] 获取待分类图像数据;
[0016] 将所述待分类图像数据输入所述图像分类模型,获取图像分类结果。
[0017] 进一步地,在本发明的一个实施例中,在构建基线模型之后,还包括:
[0018] 获取源域特征库存储图像数据集中所有的源域特征,将所述特征库中的高置信度源域特征 送至所述基线模型的分类头与Softmax层中,得到与 对应的预测概率分布 ,通过使用注意力机制构造源域原型特征:
[0019] 。
[0020] 进一步地,在本发明的一个实施例中,所述通过最小化所述基本损失函数对所述基线模型进行训练,获取初始图像分类模型,包括:
[0021] 通过采用伪标签训练的方法加强所述基线模型对类别信息的学习;
[0022] 采用旋转预测代理任务的方法加强所述基线模型对图像特征的学习。
[0023] 进一步地,在本发明的一个实施例中,所述对所述图像数据集进行重新构造,包括:
[0024] 选取用于融合的源域与目标域特征;
[0025] 使用MixUp数据增广对所述源域与目标域特征的数据进行融合。
[0026] 进一步地,在本发明的一个实施例中,所述通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中较高置信度的数据,包括:
[0027] 采用置信度过滤的方法,筛选置信度较高的目标域特征;
[0028] 使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵较低的目标域特征集合 :
[0029] ,
[0030] 通过伪标签产生用于融合的目标域特征标签,构造用于融合的目标域集合[0031]
[0032] 其中 即为图像特征 对应的图像。
[0033] 进一步地,在本发明的一个实施例中,所述通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中较高置信度的数据,包括:
[0034] 对有标注的源域特征,通过特征提取器与瓶颈层的前馈过程生成的图像特征对应的图像 与其对应标注 构造的用于融合的有标注源域集合参与后续融合过程;
[0035] 对于无标注的源域特征,采用网络分类概率预测生成的伪标签作为这部分特征的标签:
[0036]
[0037] 其中, ;
[0038] 使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵较低的无标 注 源域 特 征集 合 ,同 时 构 造 用于融 合 的 无标 注 源域 集 合。
[0039] 进一步地,在本发明的一个实施例中,所述通过伪标签与MixUp数据增广的方法获取包含所述较高置信度的数据的融合分布的有监督数据集,包括:
[0040] 获取融合数据集:
[0041] ,
[0042] 采用交叉熵监督所述融合数据集:
[0043] 。
[0044] 为达上述目的,本发明第二方面实施例提出了一种基于数据混合的工业领域自适应装置,包括以下模块:
[0045] 获取模块,用于获取待训练的图像数据集,所述图像数据集包括源域数据和目标域数据;
[0046] 构建模块,用于构建基线模型,通过所述图像数据集对所述基线模型进行训练,并通过最小化基本损失函数对所述基线模型进行优化,获取初始图像分类模型;
[0047] 重构模块,用于对所述图像数据集进行重新构造,通过信息熵筛选的方法,获取所述源域数据和所述目标域数据中较高置信度的数据,并通过伪标签与MixUp数据增广的方法获取包含所述较高置信度的数据的融合分布的有监督数据集;
[0048] 训练模块,用于通过所述有监督数据集对所述初始图像分类模型进行训练,获取完成的图像分类模型。
[0049] 进一步地,在本发明的一个实施例中,还包括分类模块,用于:
[0050] 获取待分类图像数据;
[0051] 将所述待分类图像数据输入所述图像分类模型,获取图像分类结果。
[0052] 本发明实施例提出的基于数据混合的工业领域自适应方法,设计了一种端到端的少样本无监督领域自适应方法,并创新性地引入了基于数据融合(MixUp)策略的自监督学习方法辅助少样本无监督领域自适应深度模型的训练。在训练本发明所述模型过程中,需要输入标注较少的源域数据与完全无监督的目标域数据,并使得模型学习两数据域中图片信息,最终在目标域数据上完成图像类别预测任务。

附图说明

[0053] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0054] 图1为本发明实施例所提供的一种基于数据混合的工业领域自适应方法示意图。
[0055] 图2为本发明实施例所提供的一种模型基线方法示意图。
[0056] 图3为本发明实施例所提供的一种数据混合(MixUp)方法增强模型训练流程示意图。
[0057] 图4为本发明实施例所提供的一种基于数据混合的工业领域自适应装置示意图。

具体实施方式

[0058] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0059] 下面参考附图描述本发明实施例的基于数据混合的工业领域自适应方法。
[0060] 图1为本发明实施例所提供的一种基于数据混合的工业领域自适应方法的流程示意图。
[0061] 如图1所示,该基于数据混合的工业领域自适应方法包括以下步骤:
[0062] S101:获取待训练的图像数据集,图像数据集包括源域数据和目标域数据;
[0063] 在工业制造场景中,很多情况下无法直接采用全监督训练范式训练目标生产环境下的目标模型。在这种条件下,常用的解决方案是寻找一个相似的源生产环境,使用其对应的数据用于模型训练,并在训练过程中应用迁移学习的思想方法。很多情况下,源生产环境的数据仍然不具备充分的标注。我们将源生产环境中的数据抽象为领域自适应问题中的源域数据域,而将模型待应用的目标生产环境中的数据抽象为领域自适应问题中的目标域数据域,将上述工业领域问题抽象为具有特殊要求(模型的训练稳定性较高,训练所需用时较短)的少样本无监督领域自适应问题。本发明所述工业领域自适应方法旨在训练具有高训练稳定性与相对较短训练时间的模型解决工业领域自适应问题中源域数据标注及其不充分的问题。
[0064] 具体来说,本发明以ResNet‑50深度卷积残差防落作为模型的骨干网络(Backbone),在该网络之后添加瓶颈层(Bottleneck)与预测头(Classification Head)。上述结构构成了模型对图片进行分类预测的主要结构。模型针对所有源域数据(有标注与无标注)与目标域数据进行训练,在完成训练后,模型可以为目标域图像进行端到端分类预测。
[0065] S102:构建基线模型,通过图像数据集对基线模型进行训练,并通过最小化基本损失函数对基线模型进行优化,获取初始图像分类模型;
[0066] 本发明使用深度神经网络(Deep Neural Network,DNN)完成少样本无监督领域自适应任务,所述模型使用Python语言搭建,基于PyTorch(版本号1.10.2)、torchvision(版本号0.11.3)开源代码库进行建构,本发明叙述中所做实验均基于以上环境进行。在模型基线中,本发明所使用深度模型包含一个骨干网络(backbone),一个瓶颈层(bottleneck),一个分类预测头(classification head),一个旋转分支预测头(rotation head)。方法流程示意图如图2所示。模型基线包含四个损失模块,以下将分别对网络的几个损失模块及其构成结构进行介绍。
[0067] 在详细介绍本发明所提出的方法之前,首先对少样本领域自适应问题进行数学定义,并给出本发明后续使用的相关数学符号。一个少样本领域自适应问题,或称少样本无监督领域自适应问题,需要在一个具有少量标注的源域与一个完全无标注的目标域上进行模型的学习,同时在上述完全无标注的目标域上完成模型的图像分类任务。对于具有少量标注的源域,其中有标注的图像及其标注记为 ,无标注的图像记为。无标注的目标域图像记为 。本发明在汇报实验结果时,在
, ,和 上训练模型,并在 上验证模型的训练效果。
[0068] 本发明所设计模型的主要架构包含一个特征提取网络 ,采用ResNet‑50网络结构,一个瓶颈层 ,一个用于输出分类预测值的分类头 ,以及一个用于输出旋转分类预测值的旋转分类头 。图中紫色的路径表示源域数据在模型训练过程中通过网络的方式,红色的路径表示目标域数据在模型训练过程中通过网络的方式。记图像通过特征提取网络和瓶颈层后得到的特征为 ,有 。
[0069] 本发明采用互信息最大化方法增强模型对特征的表征能力。具体来说,网络需要尽可能地在数据集上做出多样化的预测结果,以增强网络在各种预测样例上的泛化能力,即要求网络在全集上的预测期望尽可能具有较高的信息熵,与此同时,网络需要对于任意一张图像做出尽可能具有高置信度的预测。本发明模型在策略中均使用了信息熵作为预测置信度的判据,因此这里将最小化网络对一张图像预测结果的信息熵的期望。因此,需要最小化损失函数:
[0070] ,
[0071] 已有的研究证明,上述损失函数等价于最小化输入输出的互信息的相反数,即最大化输入图像与其对应的预测概率分布之间的互信息。
[0072] 本发明采用伪标签训练的方法促进模型对类别信息的学习。我们通过筛选具有较小信息熵的高置信度图像,并按照最大预测概率的形式构造伪标签,通过交叉熵函数以全监督的范式促进模型学习伪标签数据集的信息。
[0073] 本发明采用旋转预测代理任务的方法,利用旋转预测头预测图像的旋转角度,以自监督的范式促进模型对图像特征的学习。其方法思想非常简单,即将一张旋转后的图像(旋转角度为90°,180°,270°,0°之一)输入神经网络,训练神经网络预测图像的绝对旋转角度。RotNet在学习图像表征上取得了当时的最佳效果,是图像表征自监督学习领域中极为重要的工作。本发明沿用之前的范式进行旋转代理任务学习。
[0074] 本发明采用注意力增强的原型自监督模块,设计了动量更新的源域特征库存储当前数据集中所有的源域特征,该特征库在每次训练迭代后进行动量更新,并在训练开始前使用网络前馈计算得到的归一化的图像特征直接初始化。这样的学习过程实际上是集成学习(Ensemble Learning)的一种形式。本模块利用注意力机制产生类别原型,避免繁琐的聚类过程。针对特征库中的高置信度源域特征 ,本模块首先将其送至分类头 与Softmax层中,得到其对应的预测概率分布 ,之后即可直接使用注意力机制构造源域原型特征:
[0075] ,
[0076] 通过上述方式得到源域原型特征,在涵盖了多数源域信息之外,也有着较低的时间复杂度。
[0077] 实验在VisDA‑C(Visual Domain Adaptation – Classification,VISDA‑C)大型领域自适应数据集上进行。训练轮数(Epoch)为15,训练过程使用学习率为 。训练使用随机梯度下降算法进行,动量为0.9,单批次图片数(Batch size)固定为64,源域标注比例固定为1%。采用上述设置进行训练,详细实验结果如表1所示。
[0078] 表1
[0079]
[0080] 进一步地,在本发明的一个实施例中,在构建基线模型之后,还包括:
[0081] 获取源域特征库存储图像数据集中所有的源域特征,将特征库中的高置信度源域特征 送至基线模型的分类头与Softmax层中,得到与 对应的预测概率分布,通过使用注意力机制构造源域原型特征:
[0082] 。
[0083] 进一步地,在本发明的一个实施例中,通过最小化基本损失函数对基线模型进行训练,获取初始图像分类模型,包括:
[0084] 通过采用伪标签训练的方法加强基线模型对类别信息的学习;
[0085] 采用旋转预测代理任务的方法加强基线模型对图像特征的学习。
[0086] S103:对所述图像数据集进行重新构造,通过信息熵筛选的方法,获取源域数据和所述目标域数据中较高置信度的数据,并通过伪标签与MixUp数据增广的方法获取包含较高置信度的数据的融合分布的有监督数据集;
[0087] 仅仅通过模型基线的迁移方法使得模型学习目标域上的分布知识会使得模型在目标域上的泛化能力较差,由于基于原型的迁移方法只能让模型习得目标域分布的大致属性,模型难以正确识别目标域上相对较为困难的部分图像。现有的少样本领域自适应方法框架均尝试通过将目标域样例对齐到源域特征的方式间接监督目标域的学习,被用于对齐的源域特征可以是单个源域样例特征或源域特征原型。然而,这种方式的缺点是模型只能通过人工预设的映射迁移习得的知识,并不能以一种认知的方式从整体上学习目标域分布的信息。为此,本发明尝试在训练过程中充分利用少量的源域标注,并设计了数据混合(以下简称MixUp)策略模块,其结构如图2所示,通过自监督方法构造标签融合源域、目标域数据,使得模型学习源域与目标域数据的融合分布,从而促使模型在训练中借助源域分布充分认识目标域分布整体,并从习得的分布知识中推导出待分类样例的类别信息,增强模型在识别目标域上与源域数据相似度较低的样例时的鲁棒性,增强模型在目标域上的泛化能力。与此同时,这种训练方式可以让模型在训练过程中较少地受到个别不规则样例的影响,增强训练的稳定性。
[0088] 本发明尝试在MixUp模块中构造一个新的,包含源域与目标域融合分布的有监督数据集,并将该有监督数据集添加至特征提取器、瓶颈层和分类头的训练当中。为了尽可能地提升上述构造的有监督数据集的标签可信度,我们同样采用了置信度过滤的方案,仅筛选一部分置信度较高的目标域特征参与数据集的构造。值得注意的是,为了使得构造的融合数据集与训练过程保持一致,我们所使用的目标域特征 直接通过计算特征提取器 与瓶颈层 的前馈过程产生,并没有构造与前文所述源域特征库类似的目标域特征库。对于这一部分目标域特征的筛选,我们同样使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵较低的目标域特征集合 :
[0089] ,
[0090] 通过伪标签产生用于融合的目标域特征标签,构造用于融合的目标域集合[0091]
[0092] 其中, 即为图像特征 对应的图像。
[0093] 对于参与训练的源域特征,MixUp模块根据其来源的不同,采用不同的处理方式。对于有标注的源域特征,其标注完全可信,可以直接用于融合数据集标注的产生,MixUp模块直接使用这部分源域数据通过特征提取器 与瓶颈层 的前馈过程生成的图像特征 对应的图像 与其对应标注 构造的用于融合的有标注源域集合 参
与后续融合过程。对于无标注的源域特征,MixUp模块类似地采用网络分类概率预测生成的伪标签作为这部分特征的标签:
[0094]
[0095] 其中, 。
[0096] 因此,MixUp模块仍然需要从中筛选部分置信度较高的标注。简便起见,这一部分筛选同样通过最小信息熵筛选法进行。MixUp模块按照固定比例 筛选出分类预测结果对应信息熵较低的无标注源域特征集合 ,同时按照与目标域数据类似的方式构造用于融合的无标注源域集合 。
[0097] 在选取了用于融合的源域与目标域特征后,MixUp模块使用MixUp数据增广对两数据域的数据进行融合。融合的过程如图2所示。MixUp数据增广将两个不同的有标注监督样例进行随机权重的线性组合,产生一个有标注的组合样例。通过将网络的输入与监督进行线性组合,MixUp得到的数据集合使得网络注意到了训练数据点外的信息,通过线性基底让模型的监督集合由点成面,便于模型从单一的数据点中推导整体的分布形状,提高模型在训练中未见数据上的泛化能力。在领域自适应场景下,MixUp模块将不同领域中的数据作为MixUp数据增广的输入,使得MixUp提供不同领域数据的融合分布中的数据点。采用上述方法产生的融合分布监督模型学习,相比于基于对比学习的目标域分布学习过程,可以使模型更好的把握目标域分布的整体,增强模型在目标域中与源域相似度较小的样本上的泛化能力。本部分适用于领域自适应场景下的MixUp策略如下:
[0098] ,
[0099] 对于这一阶段产生的融合数据集,MixUp模块从目标域图像的分类目标出发,认为其基本的训练单元仍然是目标域特征,因此,MixUp模块针对每一张目标域图像,在用于融合的源域图像中寻找一个融合目标进行MixUp融合,同时保证融合过程中源域数据的占比。上述为每一张目标域图像寻找一张最相似的源域图像进行融合的方法,可以为模型理解融合分布起到“锚定”的作用,相比随机融合,更利于模型理解融合分布的特征。为此,MixUp模块为每一个目标域特征向量,分别与所有使用的源域特征向量计算两者之间的欧几里得距离,并为每一个目标域特征向量匹配与其空间中的欧几里得距离最短的源域特征向量。即对每一个 ,有:
[0100] ,
[0101] 依照上述方法得到融合数据集之后,MixUp 模块直接采用交叉熵监督融合数据集:
[0102] ,
[0103] 实验结果证明,MixUp 策略模块促进了模型对融合分布的理解,进而促进了模型的知识迁移,提升了模型在目标域图像上的分类效果。
[0104] 本阶段方法的流程如图3所示,本阶段实验在VisDA‑C数据集上的实验结果如表2所示。
[0105] 表2
[0106]
[0107] 进一步地,在本发明的一个实施例中,所述对所述图像数据集进行重新构造,包括:
[0108] 选取用于融合的源域与目标域特征;
[0109] 使用MixUp数据增广对所述源域与目标域特征的数据进行融合。
[0110] 进一步地,在本发明的一个实施例中,所述通过信息熵筛选的方法,获取源域数据和目标域数据中较高置信度的数据,包括:
[0111] 采用置信度过滤的方法,筛选置信度较高的目标域特征;
[0112] 使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵较低的目标域特征集合 :
[0113] ,
[0114] 通过伪标签产生用于融合的目标域特征标签,构造用于融合的目标域集合[0115]
[0116] 其中 即为图像特征 对应的图像。
[0117] 进一步地,在本发明的一个实施例中,通过信息熵筛选的方法,获取源域数据和目标域数据中较高置信度的数据,包括:
[0118] 对有标注的源域特征,通过特征提取器与瓶颈层的前馈过程生成的图像特征对应的图像 与其对应标注 构造的用于融合的有标注源域集合参与后续融合过程;
[0119] 对于无标注的源域特征,采用网络分类概率预测生成的伪标签作为这部分特征的标签:
[0120]
[0121] 其中, ;
[0122] 使用信息熵筛选法,按照固定比例 筛选出分类预测结果对应信息熵较低的无 标 注源 域 特 征 集 合 ,同 时 构 造 用 于融 合 的 无 标 注 源 域 集 合。
[0123] 进一步地,在本发明的一个实施例中,通过伪标签与MixUp数据增广的方法获取包含较高置信度的数据的融合分布的有监督数据集,包括:
[0124] 获取融合数据集:
[0125] ,
[0126] 采用交叉熵监督所述融合数据集:
[0127] 。
[0128] S104:通过有监督数据集对初始图像分类模型进行训练,获取完成的图像分类模型。
[0129] 进一步地,在本发明的一个实施例中,在获取完成的图像分类模型之后,还包括:
[0130] 获取待分类图像数据;
[0131] 将待分类图像数据输入图像分类模型,获取图像分类结果。
[0132] 本发明实施例提出的基于数据混合的工业领域自适应方法,设计了一种端到端的少样本无监督领域自适应方法,并创新性地引入了基于数据融合(MixUp)策略的自监督学习方法辅助少样本无监督领域自适应深度模型的训练。在训练本发明所述模型过程中,需要输入标注较少的源域数据与完全无监督的目标域数据,并使得模型学习两数据域中图片信息,最终在目标域数据上完成图像类别预测任务。
[0133] 为了实现上述实施例,本发明还提出基于数据混合的工业领域自适应装置。
[0134] 图4为本发明实施例提供的一种基于数据混合的工业领域自适应装置的结构示意图。
[0135] 如图4所示,该基于数据混合的工业领域自适应装置包括:获取模块100,构建模块200,重构模块300,训练模块400,其中,
[0136] 获取模块,用于获取待训练的图像数据集,图像数据集包括源域数据和目标域数据;
[0137] 构建模块,用于构建基线模型,通过图像数据集对所线模型进行训练,并通过最小化基本损失函数对基线模型进行优化,获取初始图像分类模型;
[0138] 重构模块,用于对图像数据集进行重新构造,通过信息熵筛选的方法,获取源域数据和目标域数据中较高置信度的数据,并通过伪标签与MixUp数据增广的方法获取包含较高置信度的数据的融合分布的有监督数据集;
[0139] 训练模块,用于通过有监督数据集对初始图像分类模型进行训练,获取完成的图像分类模型。
[0140] 进一步地,在本发明的一个实施例中,还包括分类模块,用于:
[0141] 获取待分类图像数据;
[0142] 将待分类图像数据输入图像分类模型,获取图像分类结果。
[0143] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0144] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0145] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。