特征增强方法、装置、计算机设备和存储介质转让专利

申请号 : CN202310676750.X

文献号 : CN116433989B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄惠李梦柯

申请人 : 深圳大学人工智能与数字经济广东省实验室(深圳)

摘要 :

本申请涉及一种特征增强方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:按照实例采样率对目标图像进行特征采样,得到初始图像特征;根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征;将所述类平衡采样特征与所述实例采样特征融合,得到增强后的特征。采用本方法所得增强后的特征中,头类数据和尾类数据的特征分布平衡、分类器偏差较小,有助于提升目标图像的图像分类准确度。(56)对比文件liu jialun, et al..Feature Cloud:Improving deep visual recognition withprobabilistic feature augmentation《.IEEETRANSACTIONS ON CIRCUITS AND SYSTEMS FORVIDEO TECHNOLOGY》.2022,第32卷(第7期),4122-4137.

权利要求 :

1.一种特征增强方法,其特征在于,所述方法包括:按照实例采样率对目标图像进行特征采样,得到初始图像特征;

根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征;

根据融合比例确定遮挡矩阵个数;

将所述类平衡采样特征与所述实例采样特征,根据所述遮挡矩阵个数进行替换,得到增强后的特征;

其中,所述增强后的特征用于图像分类,且所述融合比例基于应用场景对所述增强后的特征进行调节;

所述根据所述遮挡矩阵个数进行替换的表达式为:;

和 分别表示特征图的长和宽,d为特征维度, 为增强后的尾类特征图; 为由元素全为1的矩阵 和零矩阵 组成的遮挡矩阵,是与特征图维度一样的三维矩阵, , 由全为1和全为0的矩阵组成;p为融合比例; 中,元素全为1的矩阵 的个数由所述融合比例决定; 矩阵的个数是 ,元素全为0的 矩阵的个数是 ; 和 分别表示所述类平衡采样特征的特征图与所述实例采样特征的特征图。

2.根据权利要求1所述的方法,其特征在于,所述按照实例采样率对目标图像进行特征采样,得到初始图像特征,包括:按照图像分类训练集的样本总数量,确定所述样本总数量负相关的实例采样率;

根据所述实例采样率,对目标图像进行特征采样,得到所述目标图像的初始图像特征。

3.根据权利要求1所述的方法,其特征在于,所述根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征,包括:确定各图像类别样本量负相关的平衡采样率;

根据所述平衡采样率,对所述初始图像特征进行采样,得到所述类平衡采样特征;

按照所述实例采样率,对所述初始图像特征进行采样,得到所述实例采样特征。

4.根据权利要求3所述的方法,其特征在于,所述确定各图像类别样本量负相关的平衡采样率,包括:确定初始平衡采样率与各所述图像类别样本量负相关的调整参数;

将所述初始平衡采样率,按照各图像类别的调整参数分别进行调节,得到各图像类别的平衡采样率。

5.根据权利要求4所述的方法,其特征在于,所述确定初始平衡采样率与各所述图像类别样本量负相关的调整参数,包括:根据各所述图像类别的类别数量,确定初始平衡采样率;

确定各所述图像类别样本量呈反比例的调整参数。

6.根据权利要求4所述的方法,其特征在于,所述初始平衡采样率是未根据图像类别样本量进行调节的采样率,且用于提高图像类别样本量与平衡采样率之间的关联性。

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述增强后的特征对所述目标图像进行分类识别,得到所述目标图像所属的图像类别。

8.一种特征增强装置,其特征在于,所述装置包括:初始特征提取模块,用于按照实例采样率对目标图像进行特征采样,得到初始图像特征;

特征采样模块,用于根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征;

特征融合模块,用于根据融合比例确定遮挡矩阵个数;将所述类平衡采样特征与所述实例采样特征,根据所述遮挡矩阵个数进行替换,得到增强后的特征;其中,所述增强后的特征用于图像分类,且所述融合比例基于应用场景对所述增强后的特征进行调节;

所述根据所述遮挡矩阵个数进行替换的表达式为:;

和 分别表示特征图的长和宽,d为特征维度, 为增强后的尾类特征图; 为由元素全为1的矩阵 和零矩阵 组成的遮挡矩阵,是与特征图维度一样的三维矩阵, , 由全为1和全为0的矩阵组成;p为融合比例; 中,元素全为1的矩阵 的个数由所述融合比例决定; 矩阵的个数是 ,元素全为0的 矩阵的个数是 ; 和 分别表示所述类平衡采样特征的特征图与所述实例采样特征的特征图。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

说明书 :

特征增强方法、装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及图像处理技术领域,特别是涉及一种特征增强方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

[0002] 随着图像处理技术的发展,可通过深度学习方法进行数据识别。在实际应用场景中的现实数据大多是长尾分布这一形式下的长尾数据,长尾数据中存在的尾类样本较少,使模型产生对尾类的压缩,造成对尾类的分类困难。
[0003] 传统技术中,侧重于如何获得一个均衡分布的特征空间存在类别分布严重的不平衡的问题,而其解决方式可以通过解耦学习假设模型来实现。该类方法将特征学习和分类器进行学习解耦。解耦学习的主体策略是指,先在长尾数据上获得特征,再对特征进行重调整的方式实现分类器的平衡,减少分类器偏差。
[0004] 然而,虽然解耦学习能够有效减少分类器偏差,但是仅通过特征的重调整方式平衡分类器没有增加尾类多样性,会造成过拟合,影响该视觉识别的准确性。

发明内容

[0005] 基于此,有必要针对上述技术问题,提供一种能够不增加额外信息的情况下,提升模型分类准确率的特征增强方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006] 第一方面,本申请提供了一种特征增强方法,所述方法包括:
[0007] 按照实例采样率对目标图像进行特征采样,得到初始图像特征;
[0008] 根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征;
[0009] 将所述类平衡采样特征与所述实例采样特征融合,得到增强后的特征。
[0010] 在其中一个实施例中,所述按照实例采样率对目标图像进行特征采样,得到初始图像特征,包括:
[0011] 按照图像分类训练集的样本总数量,确定所述样本总数量负相关的实例采样率;
[0012] 根据所述实例采样率,对目标图像进行特征采样,得到所述目标图像的初始图像特征。
[0013] 在其中一个实施例中,所述根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征,包括:
[0014] 确定各图像类别样本量负相关的平衡采样率;
[0015] 根据所述平衡采样率,对所述初始图像特征进行采样,得到所述类平衡采样特征;
[0016] 按照所述实例采样率,对所述初始图像特征进行采样,得到所述实例采样特征。
[0017] 在其中一个实施例中,所述确定各图像类别样本量负相关的平衡采样率,包括:
[0018] 确定初始平衡采样率与各所述图像类别样本量负相关的调整参数;
[0019] 将所述初始平衡采样率,按照各图像类别的调整参数分别进行调节,得到各图像类别的平衡采样率。
[0020] 在其中一个实施例中,所述确定初始平衡采样率与各所述图像类别样本量负相关的调整参数,包括:
[0021] 根据各所述图像类别的类别数量,确定初始平衡采样率;
[0022] 确定各所述图像类别样本量呈反比例的调整参数。
[0023] 在其中一个实施例中,所述将所述类平衡采样特征与所述实例采样特征融合,得到增强后的特征,包括:
[0024] 将所述类平衡采样特征与所述实例采样特征,按照融合比例进行融合,得到增强后的特征;
[0025] 其中,所述融合比例用于确定所述实例采样特征替换所述类平衡采样特征的比例。
[0026] 在其中一个实施例中,所述方法还包括:
[0027] 基于所述增强后的特征对所述目标图像进行分类识别,得到所述目标图像所属的图像类别。
[0028] 第二方面,本申请还提供了一种特征增强装置。所述装置包括:
[0029] 初始特征提取模块,用于按照实例采样率对目标图像进行特征采样,得到初始图像特征;
[0030] 特征采样模块,用于根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征;
[0031] 特征融合模块,用于将所述类平衡采样特征与所述实例采样特征融合,得到增强后的特征。
[0032] 第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意实施例中特征增强的步骤。
[0033] 第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意实施例中特征增强的步骤。
[0034] 第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任意实施例中特征增强的步骤。
[0035] 上述特征增强方法、装置、计算机设备、存储介质和计算机程序产品,无需额外增加其他数据和网络参数,按照实例采样率对目标图像进行特征采样,得到初始图像特征;再将初始图像特征,通过实例采样率与平衡采样率的重采样,在实例采样特征更好表现出头类数据的特征的基础上,通过类平衡采样特征表现出尾类数据的特征,从而充分挖掘特征空间可分能力,丰富尾类多样性并扩大尾类数据的特征空间分布,最后,将所述类平衡采样特征与所述实例采样特征融合,使得双路重采样所得的类平衡采样特征与所述实例采样特征进一增强分类的准确性,得到增强后的特征。增强后的特征中,头类数据和尾类数据的特征分布平衡、分类器偏差较小,有助于提升目标图像的图像分类准确度。

附图说明

[0036] 图1为一个实施例中特征增强方法的应用环境图;
[0037] 图2为一个实施例中特征增强方法的流程示意图;
[0038] 图3为一个实施例中尾类数据识别到图像类别的数量示意图;
[0039] 图4为另一个实施例中特征增强方法的流程示意图;
[0040] 图5为一个实施例中特征增强方法的效果示意图;
[0041] 图6为另一个实施例中特征增强方法的效果示意图;
[0042] 图7为一个实施例中特征增强装置的结构框图;
[0043] 图8为一个实施例中计算机设备的内部结构图。

具体实施方式

[0044] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0045] 本申请实施例提供的特征增强方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
[0046] 其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0047] 在一个实施例中,如图2所示,提供了一种特征增强方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
[0048] 步骤202,按照实例采样率对目标图像进行特征采样,得到初始图像特征。
[0049] 实例采样率是根据图像的实际训练集确定的,且并没有基于图像类别进行采样率的调节。实例采样率可以是一个采样频率,以从目标图像的区域选取部分特征的像素点。可选地,实例采样率是根据实际训练集的某个或某些指标数据确定。例如:可通过神经网络的模型训练过程中的样本的数量,确定实例采样率;也可通过某些应用场景的某些指标需求,针对性地设置实例采样率。
[0050] 目标图像是进行视觉识别的图像,其可以是模型训练过程中的图像,也可以是模型训练后的图像。可选地,若未完成模型训练过程,则目标图像是训练集或测试集中的图像;若完成模型训练过程,则目标图像是某个视觉识别任务的待识别图像。
[0051] 在一个实施例中,按照实例采样率对目标图像进行特征采样,得到初始图像特征,包括:按照图像分类训练集的样本总数量,确定样本总数量负相关的实例采样率;根据实例采样率,对目标图像进行特征采样,得到目标图像的初始图像特征。
[0052] 图像分类训练集,是图像分类模型在训练过程中的样本集合。图像分类训练集中的数据是用于进行训练的实例数据,实例数据就是实际生活中的数据,实例数据多数是长尾数据。图像分类训练集包括多个图像类别,各图像类别所含样本量之和是图像分类训练集的样本总数量。
[0053] 在一个实施方式中,按照图像分类训练集的样本总数量,确定样本总数量负相关的实例采样率,包括:获取图像分类训练集的样本总数量;将该样本总数量的倒数确定为样本总数量负相关的实例采样率。由此,通过样本总数量的倒数,快速地确定了实例采样率,计算效率较高。
[0054] 在一个实施方式中,根据实例采样率,对目标图像进行特征采样,得到初始图像特征,包括:根据实例采样率,对目标图像进行特征提取,再对提取出的特征进行采样,得到初始图像特征。
[0055] 按照图像分类训练集的样本总数量,确定样本总数量负相关的实例采样率,可以根据样本总数量动态调节实例采样率,以便于针对不同应用场景,准确而高效地分类图像;从而使得初始图像特征更能体现出目标图像的信息。
[0056] 在初始图像特征中,同一图像类别进行识别的准确度与图像类别样本量正相关;而属于头类数据、中类数据与尾类数据的图像类别样本量是由大到小的,且尾类数据的图像类别样本量,远小于样本量头类数据的图像类别样本量,即,初始图像特征是因不同图像类别的样本数量不平衡,而导致尾类特征识别效果不佳的图像特征。
[0057] 初始图像特征导致尾类特征识别效果不佳的,其原因在于:现实世界中的图像数据多数为长尾数据,将长尾数据作为训练图像集的实例数据时,常见类别(头类数据)占据了数据集中的主要样本,而大量的罕见类别(尾类数据)只在训练集中少量出现,即图像类别的分布严重不平衡现象。这一现象导致深度学习模型尾类上表现不佳,因为模型倾向于优先正确分类头类数据而忽略尾类数据或其他类数据,尾类数据的样本缺乏是导致其识别准确率低的关键因素之一。
[0058] 本申请引入平衡采样率配合实例采样率进行重采样,从而在不增加额外信息的情况下,充分利用现有数据增加尾类数据的多样性,使得尾类数据更为丰富,从而降低模型因为图像类别样本量而导致的图像识别偏移程度,提升模型分类准确率。降低模型因为图像类别样本量而导致的图像识别偏移程度,是指,至少通过该模型更准确地识别尾类数据的图像,且可更准确地识别中类数据的图像。
[0059] 步骤204,根据各图像类别样本量确定的平衡采样率和实例采样率,对初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征。
[0060] 图像类别样本量,是模型训练过程中,某图像类别所含样本的数量。图像类别是基于图像所表征语义划分的,其图像类别包括但不限于,飞机类别,汽车类别等可识别的语义类别。
[0061] 图像类别样本量可以是某种图像类别的具体数量,可以是某种图像类别相对于样本总数量的数量百分比。例如:对于某一图像分类训练集而言,若某种图像类别的数量小于尾类特征数量阈值,则该种图像类别的图像属于尾类数据;对于某一图像分类训练集而言,若某种图像类别的数量百分比小于尾类特征数量百分比阈值,则该种图像类别的图像属于尾类数据;对于某一图像分类训练集而言,若某种图像类别的数量小于尾类特征数量阈值,或者,某种图像类别的数量百分比小于尾类特征数量百分比阈值,则该种图像类别的图像属于尾类数据。
[0062] 平衡采样率是基于各图像类别样本量确定的,其用于降低各图像类别样本量的差距,从而降低图像类别样本量对识别准确性的影响。可选地,平衡采样率用于提高尾类数据的采样率,可用于降低头类数据的采样率,可用于降低头类数据与中类数据的采样率,可用于降低中类数据的采样率,也可用于在提高尾类数据的采样率这一前提下,降低头类数据与中类数据的采样率。
[0063] 类平衡采样特征与实例采样特征是对初始图像特征进行特征采样所得的特征,即,二者均是目标图像进行特征重采样所得。然而,二者进行特征重采样时,所使用的手段不同,类平衡采样特征可以是单独基于平衡采样率进行特征采样所得,而实例采样特征是基于实例采样率进行特征采样所得。而且,由于平衡采样率降低了各图像类别样本量的差距,可能会导致尾类数据的过度拟合,直接使用类平衡采样特征进行图像识别时,固然会提升尾类数据识别的准确度,却会降低头类数据的识别准确度;与之相对应的,通过实例采样特征对初始图像特征进行重采样后,会再次提高头类数据的识别准确度,并降低尾类数据识别的准确度。因此,为了提高准确度,不应当单独通过类平衡采样特征进行图像识别,也不应当单独调用实例采样特征进行图像识别。
[0064] 步骤206,将类平衡采样特征与实例采样特征融合,得到增强后的特征。
[0065] 增强后的特征是类平衡采样特征与实例采样特征进行融合所得。增强后的特征,相对于单独使用重采样所得的实例采样特征而言,能够在一定程度上提升尾类数据识别的准确度,且由于部分尾类数据不会被识别为头类数据,头类数据的识别准确度也有所提升;而增强后的特征,相对于单独使用重采样所得的类平衡采样特征而言,头类数据的识别准确度较高。
[0066] 在一个实施例中,将类平衡采样特征与实例采样特征融合,得到增强后的特征,包括:将类平衡采样特征与实例采样特征,按照融合比例进行融合,得到增强后的特征;其中,融合比例用于确定实例采样特征替换类平衡采样特征的比例。
[0067] 通过实例采样特征替换类平衡采样特征,可使得尾类数据的图像识别结果准确度有所提高。而将类平衡采样特征与实例采样特征,按照融合比例进行融合。由于融合比例可基于应用场景对增强后的特征进行调节,从而针对性地保障在特定应用场景下,对目标图像这一张或一系列图像识别的准确度。
[0068] 在一个可选地实施例中,将类平衡采样特征与实例采样特征,按照融合比例进行融合,包括:将类平衡采样特征按照第一融合比例系数进行筛选,得到第一待融合特征;将实例采样特征按照第二融合比例系数进行筛选,得到第二待融合特征;将第一待融合特征与第二待融合特征进行融合;其中,第一融合比例系数与第二融合比例系数之和为1。
[0069] 示例性地,比如某一个尾类数据的图像类别有5个样本,某一个头类数据的图像类别有100个样本。如果用实例采样率进行采样时,每个样本的采样概率相同,就会大部分时间采样到的都是头类样本,初始图像特征难以用于尾类数据的识别。而类平衡采样过的中,对尾类数据的样本进行重复的采样。当每个类别被采样的概率一样的话,尾类数据的5个样本被重复采样。此时,若每个样本重复采样20次,则这5个样本的某一样本被采样20次,在每次采样时,将这一样本通过头类特征替换,则会得到20个属于尾类数据的初始图像特征。
[0070] 在一个实施例中,该方法还包括:基于增强后的特征对目标图像进行分类识别,得到目标图像所属的图像类别。
[0071] 由于增强后的特征是通过采样所得的,其并没有改变特征的长度、宽度或通道数,因而可以直接与传统方案中的神经网络模型相结合,可在各种应用场景选择神经网络模型,通过选择的模型与增强后的特征识别目标图像所属的图像类别,从而提升尾类数据与头类数据的识别准确度。可选地,其神经网络模型可以是CNN神经网络模型,而CNN神经网络模型包括但不限于用于图像分类的神经网络模型,且也可包括用于目标检测的神经网络模型。
[0072] 由此,按照双路采样策略,分别进行平衡采样与实例采样,并进行融合;从而简化头尾的数据融合过程,不需要重新训练主干网络,可以直接结合在其他方法上,只需要简单的对分类器微调,就可以提升模型整体分类准确率。
[0073] 上述特征增强方法中,按照实例采样率对目标图像进行特征采样,得到初始图像特征,无需额外增加其他数据和网络参数;再将初始图像特征,通过实例采样率与平衡采样率的重采样,在实例采样特征更好表现出头类数据的特征的基础上,通过类平衡采样特征表现出尾类数据的特征,从而充分挖掘特征空间可分能力,丰富尾类多样性并扩大尾类数据的特征空间分布,最后,将类平衡采样特征与实例采样特征融合,使得双路重采样所得的类平衡采样特征与实例采样特征进一增强分类的准确性,得到增强后的特征。增强后的特征中,头类数据和尾类数据的特征分布平衡、分类器偏差较小,有助于提升目标图像的图像分类准确度。
[0074] 从方案原理来看,为了解决缺乏尾类语义的问题,我们提出了一种直接有效的解决方案,称为头尾融合(Head to Tail, H2T),它从头类数据中的部分语义融合到尾类数据中。头类数据和尾类数据之间存在较多的相似隐藏语义,其是因为罕见实例的预测,很容易受到频繁出现的事物影响。对于图像分类的训练集而言,为了转移这样的语义,我们可以有效地扩充样本的尾类语义区域,平衡特征空间分布。而通过将头类数据的部分语义调整到尾类数据中,可以使得尾类数据可以占据模糊语义区域,迫使分类边界从尾语义内部区域移动到模糊语义区域,从而减少分类器偏差。其中,模糊语义区域包括,特征空间中,中类数据与尾类数据之间重叠的区域,和/或,头类数据与尾类数据之间重叠的区域。
[0075] 为了简化融合操作,我们设计了一种简单且易于实施的策略,可以充分利用获得的特征而无需重新训练主干网络。具体来说,我们采用两个支路进行重采样,即平衡采样支路和实例采样支路,用部分实例采样支路的特征图随机替换平衡采样支路的特征图。这使得尾类的特征图有很高的概率与头类的特征图融合,同时避免对特征类别特征筛选,简化操作。
[0076] 在一个实施例中,根据各图像类别样本量确定的平衡采样率和实例采样率,对初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征,包括:确定各图像类别样本量负相关的平衡采样率;根据平衡采样率,对初始图像特征进行采样,得到类平衡采样特征;按照实例采样率,对初始图像特征进行采样,得到实例采样特征。
[0077] 由于平衡采样率与各图像类别样本量是负相关的,当训练集的图像类别增加,或者,某种图像类别的样本量增加时,图像类别的平衡采样率会随之动态变化,从而使得平衡采样率能够对尾类数据进行重采样,使得类平衡特征中的尾类数据增加,以便于模型能够更准确地识别出尾类数据。
[0078] 在一个可选地实施方式中,对初始图像特征进行采样的过程,是按照平衡采样率与实例采样率这两个频率,对初始图像特征分别进行筛选的过程。而由于平衡采样率与各图像类别样本量是负相关的,在通过模型进行图像分类识别时,实际属于尾类数据的图像类别能够被更准确地识别,不容易误识别到头类数据中;由于实例采样特征与单一图像类别样本量的关联度较小,在通过模型进行图像分类识别时,实际属于头类数据的图像类别能够被更准确地识别。
[0079] 在一个实施方式中,确定各图像类别样本量负相关的平衡采样率,包括:确定初始平衡采样率与各图像类别样本量负相关的调整参数;将初始平衡采样率,按照各图像类别的调整参数分别进行调节,得到各图像类别的平衡采样率。
[0080] 初始平衡采样率是未根据图像类别样本量进行调节的采样率,其并不会因为单一图像类别的样本量变化而产生变化,以在尽可能减少相关变量的情况下,提高图像类别样本量与平衡采样率之间的关联性。可以理解的是,由于相关变量较少,操作的准确度更为快捷,有助于更高效地特征提取。
[0081] 与各图像类别样本量负相关的调整参数,其用于将各图像类别样本量,分别转换为各图像类别的调整参数,从而通过较少的计算量,将初始平衡采样率转换为该图像类别的平衡采样率。
[0082] 在一个可行的实施方式中,将初始平衡采样率,按照各图像类别的调整参数分别进行调节,得到各图像类别的平衡采样率,包括:将初始平衡采样率,按照各图像类别的调整参数指示的幅度进行降低,得到各图像类别各自的平衡采样率。由于按照各图像类别的调整参数指示的幅度,调低了初始平衡采样率,各图像类别的平衡采样率与图像类别样本量呈反比例,从而降低图像类别样本量对特征识别的影响;至少在增强后的特征属于尾类数据的情况下,提高特征识别的准确度。
[0083] 在一个具体的实施方式中,确定初始平衡采样率与各图像类别样本量负相关的调整参数,包括:根据各图像类别的类别数量,确定初始平衡采样率;确定各图像类别样本量呈反比例的调整参数。
[0084] 图像类别的类别数量,是图像分类的训练集中,可识别的图像类别数量。为了通过更少的计算进行采样率的调整,当训练集样本的类别数量变化时,初始平衡采样率随之变化,此时可直接将各图像类别样本量呈反比例的数值作为调整参数。
[0085] 在另一个实施例中,根据各图像类别的类别数量,确定初始平衡采样率,包括:将各图像类别的类别数量进行倒数计算,得到类别数量的倒数;将类别数量的倒数确定为初始平衡采样率。
[0086] 在另一个示例性地实施例中,确定各图像类别样本量呈反比例的调整参数,包括:将各图像类别样本量的倒数,作为调整参数。
[0087] 在训练集的样本总数量产生变化,且图像类别不改变样本的数量时,由于初始平衡采样率根据类别数量确定,使得初始平衡采样率不会产生变化,从而降低初始平衡采样率的变化次数,减少数据变化;而调整参数是与图像类别样本量呈反比例的,计算数据量较少,从而使得特征增强的过程需要的算力更低。
[0088] 由此,按照平衡采样率,对初始图像特征进行采样,因而就各个图像类别而言,每个图像类别的样本采样率相同,以实现使各图像类别的特征平衡分布;且会造成重复采样尾类种的相同的样本,从而导致模型对尾类数据过拟合,容易将部分中类数据或头类数据识别为属于尾类数据的图像类别。与之相对应的,按照实例采样率进行初始图像特征的重采样,以相同概率对所有图像类别的样本进行采样,不会针对某一类别的相同的样本专门进行重复采样,但头类数据样本多,因而相对于尾类数据而言,重复采样到的头类数据过多;而将平衡采样率与实例采样率分别进行采样,并将采样所得的特征组合,能够通过融合比例的权重提供识别准确的保障,从而在尾类数据的图像类别识别准确度提升的基础上,保障头类数据的图像类别识别准确度。
[0089] 在一个实施例中,将本申请与相关技术进行综合分析。现实世界的数据通常呈现长尾分布,成为限制深度神经网络进步的瓶颈问题之一,阻碍其更广泛的实际应用。因为在长尾数据上训练的模型会倾向于将样本丰富的头类分类正确,而在尾类数据中表现不佳。但是在实际场景中,只有尾类数据与头类相比,同等重要。例如,计算机辅助诊断对罕见病的误诊,严重时可能造成不可逆转的后果。
[0090] 近年来,针对长尾数据中的类不平衡问题已有大量研究。类平衡方法是一类简单有效的方法,已被大量文献证明可以显着提高模型在尾类数据的性能。主要包括:(1)重采样,即对尾类数据随机过采样或对头类的随机欠采样;(2)重加权利用损失函数的权重给不同类别的样本赋予不同的重要性,如focal‑loss、CB‑focal和L2RW等。另一类方法通过修改模型结构提高模型表现。如解耦学习和BBN通过将特征表示和分类器的解耦,然后用基于数据的方式减少分类器偏差,能够大幅度提升分类精度。集成学习可以同时提高头类和尾类数据的识别准确率,包括冗余集成,即在多专家框架中聚合单独的分类器或网络,以及互补集成,即统计选择不同的训练数据子集。预测分数调整方法,如余量平衡方法,给尾类数据留出比头类更大的余量以提高尾类数据的可分离性,可以缓解少数类的过拟合,提高模型在尾类数据的泛化能力。数据增强方法通过产生新图像或新特征来丰富样本多样性,提升模型分类表现。
[0091] 深度学习方法在尾类数据表现差的一个主要的原因之一是尾类数据样本极少,使模型产生对尾类数据的压缩,造成对尾类数据的分类困难。因此,现有方法侧重于如何获得一个均衡分布的特征空间。
[0092] 解耦学习假设模型的分类偏差主要来源于分类器,而在长尾数据上获得的特征空间表达力足够。因此,该类方法将特征学习和分类器学习解耦。如解耦学习和MisLAS,首先在长尾数据上获得特征,然后用重采样或重加权等方式平衡分类器,从而减少分类器偏差。
[0093] 实际上,直接在长尾数据上学习会产生头类对尾类数据的空间挤压。数据增强可以丰富样本多样性,从而平衡特征空间分布。如Zada等人出用纯噪声图像增强尾类数据,即在训练数据中加入纯噪声图像并把它们的标签设为尾类数据。Park等人提出用头类图像的增强尾类数据,该方法利用CutMix从尾类数据获得图像块,然后将该图像块随机覆盖在头类图像上,用这些随机合成图像来丰富尾类数据多样性。
[0094] 解耦学习能够有效减少分类器偏差,但是仅通过重采样或重加权方式平衡分类器没有增加尾类多样性,会造成过拟合。数据增强通过引入额外的信息来平衡特征空间,但是对已获得的特征空间利用不够充分。
[0095] 本申请利用现有方法获得特征表示,在此基础上进一步释放特征空间潜力。在已获得的特征空间中,我们用头类数据的特征图随机替换尾类数据的一部分特征图,从而实现从头类中借用不同的语义信息来增强尾类数据,进而丰富尾类数据多样性并重新调整分类器,能够有效避免过拟合,提升模型在尾类数据的泛化能力。该操作与现有的长尾识别方法高度兼容,可进一步提高已有方法的性能。而其采用的手段在本申请的上述实施例中均有所体现,不在此处赘述。
[0096] 在一个实施例中,如图3所示,其对实例采样数据采样所得的初始图像特征进行预测的结果后,实际属于尾类数据的图像类别7、8、9被识别为头类和中类数据,其准确性不佳。
[0097] 在一个实施例中,通过公式的角度,进一步详细描述本申请的方案。上述步骤206中,主要涉及头类特征融合到尾类的方法。其用于将头类的特征融合到尾类,该操作达到了丰富尾类并扩展其特征空间分布的目的。融合过程表达为:
[0098]
[0099] 其中, ( 和 分别表示特征图的长和宽,d为特征维度)为增强后的尾类特征图; 为由元素全为1的矩阵 和零矩阵 矩阵组成的
遮挡矩阵, 是特征图维度一样的三维矩阵,即 ,由全为1和全为0的矩阵
组成。 中,元素全为1的矩阵( )的个数由上述融合比例p决定, 矩阵的个数是 ,元素全为0的 矩阵的个数就是 ; 和 分别表示头类和尾类的特
征图。
[0100] 该增强后的特征之后通过池化层和线性分类器来预测样本属于各个类别的分数(,C为图像类别的类别数量总和)。进而,在已获得的特征空间上应用H2T,之后可以利用不同的损失函数,如交叉熵损失函数对分类器进一步调整,以减少模型对头类的偏向。
[0101] 上述步骤204中,涉及头类数据融合到尾类数据的双路采样融合策略。由于视觉识别任务通常包含较多类别,手动筛选头类和尾类数据过于繁琐,为简单而高效地特征提取。我们对初始图像特征进行两路采样,得到类平衡采样特征与实例采样特征。
[0102] 双路采样融合策略的一个支路是,按照平衡采样率对初始图像特征采样所得的特征 ,该类别i的采样概率为 ,输入被融合分支;另中一个支路是,按照实例采样率采样所得的特征 ,对于类别i的采样概率为 ,输入融合分支。第i类样本 的采样率的计算方式为:
[0103]
[0104] 其中,C为类别数量,N为训练集中总样本个数, 为第i类样本个数,则有。平衡采样数据确保每个图像类别中,都以与初始平衡采样率相等的概率 被采样。类别包含的样本数量越少,被多次重采样的概率越高。而且,由于训练集呈长尾分布,头部类别被采样的概率更高。
[0105] 接下来,对从特征 和特征 进行特征提取,得到类平衡采样特征 和实例采样特征 ,再通过特征图形式的类平衡采样特征 来替代公式(1)中的 ,通过特征图形式的实例采样特征 来替代公式(1)中的 。融合后的数据标签使用 的标签集。这样可以使采样的尾类特征以更高的概率与头类特征融合,从而将头类数据调整到尾类数据中,通过部分头类数据的语义丰富尾类,实现分类器的调整,从而保障增强后的特征中,头类数据和尾类数据的特征分布平衡、分类器偏差较小,提升目标图像的图像分类准确度。该操作不引入额外网络和信息,能够充分挖掘现有特征空间的潜力。
[0106] 在一个实施例中,本申请实现过程如图4所示,其中W和 分别表示调整前和调整后的分类器。步骤202中的输入数据为实例采样数据,特征提取器使用神经网络模型,特征提取主干网络和分类器同时训练。在步骤204中,两路输入数据分别为类平衡采样数据和实例采样数据,再基于特征提取器进行特征日期,特征提取可按照特征提取器的特征提取参数进行。采用步骤202的方式基于L1执行,分类器参数在步骤202的基础上调整。损失函数L1和损失函数L2可以选择交叉熵损失函数、MisLAS、GCL、KPS等。最终,我们使用步骤204中的特征提取器和调整后的分类器 。
[0107] 应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0108] 在一个实施例中,从原理角度,深入讨论H2T的理论合理性,证明本方案是可行的。为了便于分析,不失一般性,融合后的特征图是按顺序重新排列的,输入在池化层之后,得到的特征可以写为: ,其中 和 分别表示保留和融合的特征, 是特征
对应的分类器权重,特征和分类器权重为d维向量,即 。
[0109] 我们用下标h和t来区分头类和尾类,因此对于一个特征f,网络输出为尾类的分数表示 ,头类与之类似,即 。对于一个尾类样本,我们希望 ,因此:
[0110]
[0111] 然而,如图3所示,许多尾类样本被错误地分类为头类。因此,直接在长尾数据上训练好的模型实际上预测的分数为 ,即:
[0112]
[0113] 在第二阶段将头尾融合后,尾类特征为 ,相应的分数用 表示。
[0114] 我们的训练目标仍然是使目标类分数大于非目标类,即 ,因此该目标如下:
[0115]
[0116] 将公式(6)第三行与公式(5)相加减可以得到:
[0117]
[0118] 我们用 来表示向量 和 之间的夹角,公式(7)可以进一步简化为:
[0119]
[0120] 另一方面,类似于公式(4),对于目标类为头类的样本的分数,我们有单独针对头类数据进行提取所得的实际训练结果:
[0121]
[0122] 将公式(6)第三行与公式(9)相加减可以得到:
[0123]
[0124] 公式(8)产生使 向尾类样本靠近的力和推离 的力,而公式(10)产生完全相反的力。
[0125] 如图5所示,从几何角度解释了H2T的基本原理。力 和力 分别由公式(10)和公式(8)产生。融合操作替换少量的尾类特征图,因此 ,使尾类样本“拉”近 并“推”远离。这一操作可以扩大尾类特征空间的扩大且降低分类器对头类的偏向。
[0126] 值得注意的是,当融合比例p较小时,公式(10)产生更大的力,使分类器能够得到校准。随着p的增长,公式(7)中的 也会逐渐变得更占主导地位。在这种情况下,即使公式(8)使产生的使 远离尾类样本大于公式(10)产生的使 更靠近尾类样本,但会产生使 更靠近尾类样本的力,从而扩大了尾类的分布范围。因此,无论p的值如何,融合操作都会提高分类器在尾类上的性能。但p过大会使 过大,损害头类表现。即,是p大了才会有更多的实例采样支路的特征图,随机替换平衡采样支路的特征图。头上一个点的w表示对应保留特征的对应的分类器权重,两个点的表示被替换的特征对应的分类器权重。p小的时候,保留的多,公式(10)的力量大。
[0127] 在一个实施例中,通过实验表明提出的H2T可以很容易地整合到最新的长尾视觉识别方法中,并得到效果上的提升。我们在5个常用基准数据集上进行了测试,包括CIFAR10‑LT,CIFAR100‑LT、imageNet‑LT、Places365‑LT,iNaturalist 2018。在CIFAR10‑LT和CIFAR100‑LT上使用的特征提取器主干网络为ResNet‑32,imageNet‑LT和iNaturalist 2018上特征提取器主干网络为ResNet‑50,Places365‑LT上特征提取器主干网络为ResNet‑
152。表1‑表4比较了现有方法结合H2T之前和之后的分类准确率(%)。在这些数据集上,H2T能稳定得提升现有方法。在CIFAR10‑LT上的特征可视化结果可以证明H2T能扩大尾类空间分布,平衡特征空间。CIFAR10‑LT和CIFAR100‑LT上的比较结果如表1所示,imageNet‑LT上的比较结果如表2所示,iNaturalist 2018上的比较结果如表3所示,imageNet‑LT上的比较结果如表4所示。
[0128] 表1
[0129]
[0130] 表2
[0131]
[0132] 表3
[0133]
[0134] 表4
[0135]
[0136] 在一个实施例中,如图6中的(a)‑图6中的(d)所示,图6中的(a)是不结合本方案(即H2T)并基于交叉损失函数进行图像识别的结果;图6中的(b)是结合本方案(即H2T)并基于交叉损失函数进行图像识别的结果;图6中的(c)是不结合本方案(即H2T)并基于GCL损失函数进行图像识别的结果;图6中的(d)是结合本方案(即H2T)并基于GCL损失函数进行图像识别的结果。图6中的(a)‑图6中的(d)中纵向排列的类0‑类9,一一对应于图3中的类别1‑类别9。
[0137] 显示了特征空间分布的t‑SNE可视化结果,这证明了H2T可以丰富尾类,从而防止头类对其过度压缩和模型过拟合。我们可以看到不结合H2T时,尾类的分布比头类的分布稀疏。H2T在没有外部信息的情况下,用语义样本填充分类边界,丰富了类内和类间尾类的多样性,有效缓解了尾类过度压缩、扩大了尾类特征空间分布。
[0138] 基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的特征增强方法的特征增强装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个特征增强装置实施例中的具体限定可以参见上文中对于特征增强方法的限定,在此不再赘述。
[0139] 在一个实施例中,如图7所示,提供了一种特征增强装置,包括:
[0140] 初始特征提取模块702,用于按照实例采样率对目标图像进行特征采样,得到初始图像特征;
[0141] 特征采样模块704,用于根据各图像类别样本量确定的平衡采样率和所述实例采样率,对所述初始图像特征进行特征采样,得到类平衡采样特征与实例采样特征;
[0142] 特征融合模块706,用于将所述类平衡采样特征与所述实例采样特征融合,得到增强后的特征。
[0143] 在其中一个实施例中,所述初始特征提取模块702,用于:
[0144] 按照图像分类训练集的样本总数量,确定所述样本总数量负相关的实例采样率;
[0145] 根据所述实例采样率,对目标图像进行特征采样,得到所述目标图像的初始图像特征。
[0146] 在其中一个实施例中,所述特征采样模块704,用于:
[0147] 确定各图像类别样本量负相关的平衡采样率;
[0148] 根据所述平衡采样率,对所述初始图像特征进行采样,得到所述类平衡采样特征;
[0149] 按照所述实例采样率,对所述初始图像特征进行采样,得到所述实例采样特征。
[0150] 在其中一个实施例中,所述特征采样模块704,用于:
[0151] 确定初始平衡采样率与各所述图像类别样本量负相关的调整参数;
[0152] 将所述初始平衡采样率,按照各图像类别的调整参数分别进行调节,得到各图像类别的平衡采样率。
[0153] 在其中一个实施例中,所述特征采样模块704,用于:
[0154] 根据各所述图像类别的类别数量,确定初始平衡采样率;
[0155] 确定各所述图像类别样本量呈反比例的调整参数。
[0156] 在其中一个实施例中,所述特征融合模块706,用于:
[0157] 将所述类平衡采样特征与所述实例采样特征,按照融合比例进行融合,得到增强后的特征;
[0158] 其中,所述融合比例用于确定所述实例采样特征替换所述类平衡采样特征的比例。
[0159] 在其中一个实施例中,所述装置还包括,图像识别模块,图像识别模块用于:
[0160] 基于所述增强后的特征对所述目标图像进行分类识别,得到所述目标图像所属的图像类别。
[0161] 上述特征增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0162] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特征增强方法。
[0163] 本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0164] 在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0165] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0166] 在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0167] 需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0168] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read‑Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0169] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0170] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。