图像处理模型的训练方法及装置、图像处理方法及装置转让专利

申请号 : CN202110924874.6

文献号 : CN113537151B

文献日 : 2023-10-17

本公开关于一种图像处理模型的训练方法及装置、图像处理方法及装置。训练方法包括：获取训练样本集，其中，训练样本集包括多个训练图像和对应的标注的处理结果；将训练图像输入特征提取网络提取训练图像的特征；获取训练图像的特征在频域上的幅度谱并基于幅度谱得到训练图像的增强特征；将训练图像的特征和增强特征分别输入处理网络，得到与训练图像的特征对应的第一预估处理结果和与增强特征对应的第二预估处理结果；基于第一预估处理结果和对应的标注的处理结果确定第一目标损失函数；基于第二预估处理结果和对应的标注的处理结果确定第二目标损失函数；通过第一目标损失函数和第二目标损失函数调整各网络的参数训练图像处理模型进行训练。

1.一种图像处理模型的训练方法，其特征在于，所述图像处理模型包括特征提取网络和处理网络，所述训练方法包括：获取训练样本集，其中，所述训练样本集包括多个训练图像和所述多个训练图像对应的标注的处理结果；

将训练图像输入到特征提取网络，提取所述训练图像的特征；

获取所述训练图像的特征在频域上的幅度谱，并基于所述幅度谱得到所述训练图像的增强特征；

将所述训练图像的特征和所述增强特征分别输入到所述处理网络，得到与所述训练图像的特征对应的第一预估处理结果和与所述增强特征对应的第二预估处理结果；

基于所述第一预估处理结果和对应的标注的处理结果，确定第一目标损失函数；

基于所述第二预估处理结果和对应的标注的处理结果，确定第二目标损失函数；

通过所述第一目标损失函数和所述第二目标损失函数调整所述特征提取网络和所述处理网络的参数，对所述图像处理模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，所述获取所述训练图像的特征在频域上的幅度谱，包括：对所述训练图像的特征做频域变换处理，得到所述特征的实部和虚部；

基于所述特征的实部和虚部，获取所述特征在频域上的幅度谱。

3.如权利要求1所述的训练方法，其特征在于，所述基于所述幅度谱得到所述训练图像的增强特征，包括：对所述幅度谱做归一化处理，将归一化处理后的幅度谱作为所述训练图像的增强特征。

4.如权利要求3所述的训练方法，其特征在于，所述对所述幅度谱做归一化处理，将归一化处理后的幅度谱作为所述训练图像的增强特征，包括：获取所述特征在频域上的幅度谱的维度和范数；

对所述幅度谱的范数取平方，得到平方后的范数；

将所述平方后的范数除以所述幅度谱的维度，得到所述训练图像的增强特征。

5.如权利要求1所述的训练方法，其特征在于，所述通过所述第一目标损失函数和所述第二目标损失函数调整所述特征提取网络和所述处理网络的参数，对所述图像处理模型进行训练，包括：针对所述特征提取网络和所述处理网络中的第一部分参数，通过最小化所述第一目标损失函数来调整第一部分参数；

针对所述特征提取网络和所述处理网络中的第二部分参数，通过最小化所述第二目标损失函数来调整第二部分参数；

针对所述特征提取网络和所述处理网络中的第三部分参数，通过最小化所述第一目标损失函数得到与第三部分参数对应的第一调整参数，通过最小化所述第二目标损失函数得到与第三部分参数对应的第二调整参数，并将第三部分参数调整为所述第一调整参数和所述第二调整参数的平均值。

6.如权利要求5所述的训练方法，其特征在于，所述第一部分参数是所述特征提取网络和所述处理网络中仅与所述特征的处理相关的参数，所述第二部分参数是所述特征提取网络和所述处理网络中仅与所述增强特征的处理相关的参数，所述第三部分参数是所述特征提取网络和所述处理网络中与所述特征的处理和所述增强特征的处理相关的参数。

7.一种图像处理方法，其特征在于，包括：

获取待处理的图像；

将所述待处理图像输入到图像处理模型的特征提取网络，提取所述待处理训练图像的特征，其中，所述图像处理模型是根据如权利要求1至6中任一项所述的图像处理模型的训练方法训练得到的；

将所述待处理训练图像的特征输入到所述图像处理模型的处理网络，得到所述待处理图像的处理结果。

8.如权利要求7所述的图像处理方法，其特征在于，所述图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。

9.一种图像处理模型的训练装置，其特征在于，所述图像处理模型包括特征提取网络和处理网络，包括：训练样本获取单元，被配置为获取训练样本集，其中，所述训练样本集包括多个训练图像和所述多个训练图像对应的标注的处理结果；

特征提取单元，被配置为将训练图像输入到特征提取网络，提取所述训练图像的特征；

增强特征获取单元，被配置为获取所述训练图像的特征在频域上的幅度谱，并基于所述幅度谱得到所述训练图像的增强特征；

处理单元，被配置为将所述训练图像的特征和所述增强特征分别输入到所述处理网络，得到与所述训练图像的特征对应的第一预估处理结果和与所述增强特征对应的第二预估处理结果；

目标函数确定单元，被配置为基于所述第一预估处理结果和对应的标注的处理结果，确定第一目标损失函数；基于所述第二预估处理结果和对应的标注的处理结果，确定第二目标损失函数；

训练单元，被配置为通过所述第一目标损失函数和所述第二目标损失函数调整所述特征提取网络和所述处理网络的参数，对所述图像处理模型进行训练。

10.如权利要求9所述的训练装置，其特征在于，所述增强特征获取单元，还被配置为对所述训练图像的特征做频域变换处理，得到所述特征的实部和虚部；基于所述特征的实部和虚部，获取所述特征在频域上的幅度谱。

11.如权利要求9所述的训练装置，其特征在于，所述增强特征获取单元，还被配置为对所述幅度谱做归一化处理，将归一化处理后的幅度谱作为所述训练图像的增强特征。

12.如权利要求11所述的训练装置，其特征在于，所述增强特征获取单元，还被配置为获取所述特征在频域上的幅度谱的维度和范数；对所述幅度谱的范数取平方，得到平方后的范数；将所述平方后的范数除以所述幅度谱的维度，得到所述训练图像的增强特征。

13.如权利要求9所述的训练装置，其特征在于，所述训练单元，还被配置为针对所述特征提取网络和所述处理网络中的第一部分参数，通过最小化所述第一目标损失函数来调整第一部分参数；针对所述特征提取网络和所述处理网络中的第二部分参数，通过最小化所述第二目标损失函数来调整第二部分参数；针对所述特征提取网络和所述处理网络中的第三部分参数，通过最小化所述第一目标损失函数得到与第三部分参数对应的第一调整参数，通过最小化所述第二目标损失函数得到与第三部分参数对应的第二调整参数，并将第三部分参数调整为所述第一调整参数和所述第二调整参数的平均值。

14.如权利要求13所述的训练装置，其特征在于，所述第一部分参数是所述特征提取网络和所述处理网络中仅与所述特征的处理相关的参数，所述第二部分参数是所述特征提取网络和所述处理网络中仅与所述增强特征的处理相关的参数，所述第三部分参数是所述特征提取网络和所述处理网络中与所述特征的处理和所述增强特征的处理相关的参数。

15.一种图像处理装置，其特征在于，包括：

图像获取单元，被配置为获取待处理的图像；

特征提取单元，被配置为将所述待处理图像输入到图像处理模型的特征提取网络，提取所述待处理训练图像的特征，其中，所述图像处理模型是根据如权利要求1至6中任一项所述的图像处理模型的训练方法训练得到的；

处理单元，被配置为将所述待处理训练图像的特征输入到所述图像处理模型的处理网络，得到所述待处理图像的处理结果。

16.如权利要求15所述的图像处理装置，其特征在于，所述图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。

17.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的图像处理模型的训练方法和/或权利要求7至8中任一项所述的图像处理方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中任一项所述的图像处理模型的训练方法和/或权利要求7至8中任一项所述的图像处理方法。

19.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的图像处理模型的训练方法和/或权利要求7至8中任一项所述的图像处理方法。

图像处理模型的训练方法及装置、图像处理方法及装置

技术领域

[0001] 本公开涉及图像处理领域，尤其涉及一种图像处理模型的训练方法及装置、图像处理方法及装置。

背景技术

[0002] 随着神经网络结构的发展，基于深度学习的算法在识别、分割等场景中已经取得了不错的表现，但是，在训练样本较少且模型规模较大时，训练后的模型会出现过拟合现象。目前，针对该问题引入了激活函数，以解决过拟合问题，但相关技术中有Sigmoid，ReLU，Leaky ReLU，MLP等都是基于空间域对特征进行变换，由于变换后得到的信息不够全面，很难提供有鉴别力的特征，导致基于此训练得到的模型识别、分割不准确。

发明内容

[0003] 本公开提供一种图像处理模型的训练方法及装置、图像处理方法及装置，以至少解决相关技术中无法训练出处理结果准确的模型的问题。

[0004] 根据本公开实施例的第一方面，提供一种图像处理模型的训练方法，该图像处理模型包括特征提取网络和处理网络，训练方法包括：获取训练样本集，其中，训练样本集包括多个训练图像和多个训练图像对应的标注的处理结果；将训练图像输入到特征提取网络，提取训练图像的特征；获取训练图像的特征在频域上的幅度谱，并基于幅度谱得到训练图像的增强特征；将训练图像的特征和增强特征分别输入到处理网络，得到与训练图像的特征对应的第一预估处理结果和与增强特征对应的第二预估处理结果；基于第一预估处理结果和对应的标注的处理结果，确定第一目标损失函数；基于第二预估处理结果和对应的标注的处理结果，确定第二目标损失函数；通过第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练。

[0005] 可选地，获取训练图像的特征在频域上的幅度谱，包括：对训练图像的特征做频域变换处理，得到特征的实部和虚部；基于特征的实部和虚部，获取特征在频域上的幅度谱。

[0006] 可选地，基于幅度谱得到训练图像的增强特征，包括：对幅度谱做归一化处理，将归一化处理后的幅度谱作为训练图像的增强特征。

[0007] 可选地，对幅度谱做归一化处理，将归一化处理后的幅度谱作为训练图像的增强特征，包括：获取特征在频域上的幅度谱的维度和范数；对幅度谱的范数取平方，得到平方后的范数；将平方后的范数与除以幅度谱的维度，得到训练图像的增强特征。

[0008] 可选地，通过第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练，包括：针对特征提取网络和处理网络中的第一部分参数，通过最小化第一目标损失函数来调整第一部分参数；针对特征提取网络和处理网络中的第二部分参数，通过最小化第二目标损失函数来调整第二部分参数；针对特征提取网络和处理网络中的第三部分参数，通过最小化第一目标损失函数得到与第三部分参数对应的第一调整参数，通过最小化第二目标损失函数得到与第三部分参数对应的第二调整参数，并将第三部分参数调整为第一调整参数和第二调整参数的平均值。

[0009] 可选地，第一部分参数是特征提取网络和处理网络中仅与特征的处理相关的参数，第二部分参数是特征提取网络和处理网络中仅与增强特征的处理相关的参数，第三部分参数是特征提取网络和处理网络中与特征的处理和增强特征的处理相关的参数。

[0010] 根据本公开实施例的第二方面，提供一种图像处理方法，包括：获取待处理的图像；将待处理图像输入到图像处理模型的特征提取网络，提取待处理训练图像的特征，其中，图像处理模型是根据如上述任一项的图像处理模型的训练方法训练得到的；将待处理训练图像的特征输入到图像处理模型的处理网络，得到待处理图像的处理结果。

[0011] 可选地，图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。

[0012] 根据本公开实施例的第三方面，提供一种图像处理模型的训练装置，图像处理模型包括特征提取网络和处理网络，包括：训练样本获取单元，被配置为获取训练样本集，其中，训练样本集包括多个训练图像和多个训练图像对应的标注的处理结果；特征提取单元，被配置为将训练图像输入到特征提取网络，提取训练图像的特征；增强特征获取单元，被配置为获取训练图像的特征在频域上的幅度谱，并基于幅度谱得到训练图像的增强特征；处理单元，被配置为将训练图像的特征和增强特征分别输入到处理网络，得到与训练图像的特征对应的第一预估处理结果和与增强特征对应的第二预估处理结果；目标函数确定单元，被配置为基于第一预估处理结果和对应的标注的处理结果，确定第一目标损失函数；基于第二预估处理结果和对应的标注的处理结果，确定第二目标损失函数；训练单元，被配置为通过第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练。

[0013] 可选地，增强特征获取单元，还被配置为对训练图像的特征做频域变换处理，得到特征的实部和虚部；基于特征的实部和虚部，获取特征在频域上的幅度谱。

[0014] 可选地，增强特征获取单元，还被配置为对幅度谱做归一化处理，将归一化处理后的幅度谱作为训练图像的增强特征。

[0015] 可选地，增强特征获取单元，还被配置为获取特征在频域上的幅度谱的维度和范数；对幅度谱的范数取平方，得到平方后的范数；将平方后的范数除以幅度谱的维度，得到训练图像的增强特征。

[0016] 可选地，训练单元，还被配置为针对特征提取网络和处理网络中的第一部分参数，通过最小化第一目标损失函数来调整第一部分参数；针对特征提取网络和处理网络中的第二部分参数，通过最小化第二目标损失函数来调整第二部分参数；针对特征提取网络和处理网络中的第三部分参数，通过最小化第一目标损失函数得到与第三部分参数对应的第一调整参数，通过最小化第二目标损失函数得到与第三部分参数对应的第二调整参数，并将第三部分参数调整为第一调整参数和第二调整参数的平均值。

[0017] 可选地，第一部分参数是特征提取网络和处理网络中仅与特征的处理相关的参数，第二部分参数是特征提取网络和处理网络中仅与增强特征的处理相关的参数，第三部分参数是特征提取网络和处理网络中与特征的处理和增强特征的处理相关的参数。

[0018] 根据本公开实施例的第四方面，提供一种图像处理装置，包括：图像获取单元，被配置为获取待处理的图像；特征提取单元，被配置为将待处理图像输入到图像处理模型的特征提取网络，提取待处理训练图像的特征，其中，图像处理模型是根据如上任一项的图像处理模型的训练方法训练得到的；处理单元，被配置为将待处理训练图像的特征输入到图像处理模型的处理网络，得到待处理图像的处理结果。

[0019] 可选地，图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。

[0020] 根据本公开实施例的第五方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的图像处理模型的训练方法和/或图像处理方法。

[0021] 根据本公开实施例的第六方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的图像处理模型的训练方法和/或图像处理方法。

[0022] 根据本公开实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的图像处理模型的训练方法和/或像处理方法。

[0023] 本公开的实施例提供的技术方案至少带来以下有益效果：

[0024] 根据本公开的图像处理模型的训练方法及装置、图像处理方法及装置，在提取空间域的特征对图像处理模型进行训练的同时，还基于该特征频域上的幅度谱来获取增强的特征，也即频域上的特征，利用该增强特征进一步地对图像处理模型进行训练，使得本公开可以从不同的维度获得互补特征，实现利用空间域的特征和频域的特征共同训练图像处理模型，提高了训练得到的图像处理模型输出地处理结果的准确性。因此，本公开解决了相关技术中无法训练出处理结果准确的模型的问题。

[0025] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

[0026] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

[0027] 图1是示出根据本公开的示例性实施例的图像处理模型的训练方法的实施场景示意图；

[0028] 图2是根据一示例性实施例示出的一种图像处理模型的训练方法的流程图；

[0029] 图3是根据一示例性实施例示出的目标损失函数调整模型参数示意图；

[0030] 图4是根据一示例性实施例示出的一种图像处理方法的流程图；

[0031] 图5是根据一示例性实施例示出的验证结果的可视化图；

[0032] 图6是根据一示例性实施例示出的验证结果示意图；

[0033] 图7是根据一示例性实施例示出的一种图像处理模型的训练装置的框图；

[0034] 图8是根据一示例性实施例示出的一种图像处理装置的框图；

[0035] 图9是根据本公开实施例的一种电子设备900的框图。

具体实施方式

[0036] 为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

[0037] 需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

[0038] 在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

[0039] 针对上述问题，本公开提供了一种图像处理模型的训练方法，能够训练出处理结果准确的模型，例如，该图像处理模型的训练方法可以应用但不限于以下目标任务上：图像识别、图像分割、图像增强，下面以图像识别任务中人脸识别为例进行说明。

[0040] 图1是示出根据本公开的示例性实施例的图像处理模型的训练方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装获取图像的摄像头，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

[0041] 服务器100接收用户终端110、120发送的对图像处理模型进行训练的请求之后，统计从用户终端110、120历史上接收到的人脸图像并对统计的图像中的人脸进行标注，并将标注后的人脸图像合并在一起作为训练样本集，其中，训练样本集包括多个人脸图像和多个人脸图像对应的标注的处理结果，服务器100在获取到训练样本集后，将其中的每个人脸图像输入到特征提取网络，提取人脸图像的特征，获取人脸图像的特征在频域上的幅度谱，并基于幅度谱得到人脸图像的增强特征，再将特征和增强特征分别输入到处理网络，得到与人脸图像的特征对应的第一预估处理结果和与增强特征对应的第二预估处理结果，进而基于第一预估处理结果和对应的标注的处理结果，确定第一目标损失函数，以及基于第二预估处理结果和对应的标注的处理结果，确定第二目标损失函数，再通过第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练，得到针对人脸识别割任务的识别结果准确的图像处理模型，通过训练好的图像处理模型可以对输入的人脸图像进行准确的识别。

[0042] 下面，将参照图2至图8详细描述根据本公开的示例性实施例的图像处理模型的训练方法及装置、图像处理方法及装置。

[0043] 图2是根据一示例性实施例示出的一种图像处理模型的训练方法的流程图，如图2所示，图像处理模型包括特征提取网络和处理网络，训练方法包括以下步骤：

[0044] 在步骤S201中，获取训练样本集，其中，训练样本集包括多个训练图像和多个训练图像对应的标注的处理结果。该标注的处理结果与实际业务相对应，如实际业务为图像识别业务，则标注的处理结果为标注的识别结果，如实际业务为图像识别业务，则标注的处理结果为标注的分割结果，本公开对实际业务并不进行限定。

[0045] 在步骤S202中，将训练图像输入到特征提取网络，提取训练图像的特征。

[0046] 在步骤S203中，获取训练图像的特征在频域上的幅度谱，并基于幅度谱得到训练图像的增强特征。

[0047] 根据本公开的示例性实施例，获取训练图像的特征在频域上的幅度谱，可以通过如下方式实现：对训练图像的特征做频域变换处理，得到特征的实部和虚部；基于特征的实部和虚部，获取特征在频域上的幅度谱。通过本实施例，可以快速的获取幅度谱，且在该实施例中丢弃相位谱，可以实现非线性变换。

[0048] 例如，可以对训练图像的特征做傅里叶变换处理，得到特征的实部和虚部后，可以通过如下公式获取特征在频域上的幅度谱M(x)：

[0049] M(x)＝||F(fθ(x))|| (1)

[0050] 其中，x表示输入的训练图像，f表示图像识别模型，F表示傅里叶变换，||F(.)||表示取傅里叶变换结果的范式。需要说明的是，本公开在于设计非线性的激活函数，但傅里叶变换本身是线性函数，为了实现非线性变换，故只取特征的幅度谱，而丢弃相位谱。

[0051] 根据本公开的示例性实施例，通过以下之一的频域变换方式对训练图像的特征做频域变换处理：快速傅里叶变换、离散余弦变换。即在本公开中的傅立叶变换可以采用快速傅氏变换(Fast Fourier Transformation，缩写为FFT)，也可以采用更高级的频域变换，例如离散余弦变换(Discrete Cosine Transform，缩写为DCT)等，对此本公开并不限定。

[0052] 根据本公开的示例性实施例，基于幅度谱得到训练图像的增强特征，包括：对幅度谱做归一化处理，将归一化处理后的幅度谱作为训练图像的增强特征。通过本实施例，归一化处理后可以聚拢稀疏的幅度谱，提高训练的效率。

[0053] 根据本公开的示例性实施例，对幅度谱做归一化处理，将归一化处理后的幅度谱作为训练图像的增强特征，可以包括：获取特征在频域上的幅度谱的维度和范数；对幅度谱的范数取平方，得到平方后的范数；将平方后的范数除以幅度谱的维度，得到训练图像的增强特征。通过本实施例，可以方便、快速的得到训练图像的增强特征。

[0054] 例如，增强后特征可以通过如下公式得到：

[0055]

[0056] 其中，D表示幅度谱的维度。

[0057] 在步骤S204中，将训练图像的特征和增强特征分别输入到处理网络，得到与训练图像的特征对应的第一预估处理结果和与增强特征对应的第二预估处理结果。例如，特征提取网络的输出的特征和后续获取的增强特征，会分别输入到处理网络中，得到用于确定目标损失函数的处理结果，也即第一预估处理结果和第二预估处理结果。

[0058] 在步骤S205中，基于第一预估处理结果和对应的标注的处理结果，确定第一目标损失函数。上述目标损失函数可以是交叉熵损失函数(cross entropy loss)，但并不限于该损失函数，可以是任何可以应用的损失函数，如均方差。例如，以交叉熵损失函数为例，如图3所示，可以基于空间域的特征得到的第一预估处理特征，以及基于频域的增强特征得到的第二预估处理结果，分别确定对应的目标损失函数，以便共同调整图像处理模型的参数，图3中或是基于第一预估处理结果得到的第一目标损失函数，具体地，表示交叉熵损失函数，表示三元组损失函数。

[0059] 在步骤S206中，基于第二预估处理结果和对应的标注的处理结果，确定第二目标损失函数。例如，如图3中表示基于第二预估处理结果得到第二目标损失函数。

[0060] 在步骤S207中，通过第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练。具体地，幅度谱M是一种非线性变换函数，因此，第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练，即实现了空间域与频域的特征共同训练图像处理模型。

[0061] 根据本公开的示例性实施例，通过第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练，包括：针对特征提取网络和处理网络中的第一部分参数，通过最小化第一目标损失函数来调整第一部分参数；针对特征提取网络和处理网络中的第二部分参数，通过最小化第二目标损失函数来调整第二部分参数；针对特征提取网络和处理网络中的第三部分参数，通过最小化第一目标损失函数得到与第三部分参数对应的第一调整参数，通过最小化第二目标损失函数得到与第三部分参数对应的第二调整参数，并将第三部分参数调整为第一调整参数和第二调整参数的平均值。通过本实施例，实现了采用空间域与频域的特征共同训练图像处理模型。

[0062] 根据本公开的示例性实施例，第一部分参数是特征提取网络和处理网络中仅与特征的处理相关的参数，第二部分参数是特征提取网络和处理网络中仅与增强特征的处理相关的参数，第三部分参数是特征提取网络和处理网络中与特征的处理和增强特征的处理相关的参数。

[0063] 根据本公开的示例性实施例，上述图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。需要说明的是，本公开并不限定于此，还可以其他任务的模型。

[0064] 图4是根据一示例性实施例示出的一种图像处理方法的流程图，如图4所示，图像处理模型包括特征提取网络和处理网络，图像处理方法包括以下步骤：

[0065] 在步骤S401中，获取待处理的图像。该待处理图像可以是通过终端的摄像头获取的图像，也可以是预先存储的图像，对此本公开并不限定。

[0066] 在步骤S402中，将待处理图像输入到图像处理模型的特征提取网络，提取待处理训练图像的特征，其中，图像处理模型是根据如上述任一实施例的图像处理模型的训练方法训练得到的。具体的训练过程见上述实施例，此处不再展开论述。

[0067] 在步骤S403中，将待处理训练图像的特征输入到图像处理模型的处理网络，得到待处理图像的处理结果。

[0068] 根据本公开的示例性实施例，图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。需要说明的是，本公开并不限定于此，还可以其他任务的模型。

[0069] 为了说明上述方法的可行性，本公开还根据Parseval’s定理，验证了在特征上做傅立叶变换的有效性，具体地，本公开以识别任务为例，在多个数据集上进行了验证，在采用本公开的方法后，所有数据集的识别结果均得到了提升。具体如下表1所示：

[0070] 表1识别结果对比

[0071]

[0072] 直观上，图5可视化了加入本公开的方法(FA)后的特征分布(如图5(b))，可以发现，当采用本公开的方法后，特征的分布出现了明显的优化，同类别的特征更聚集，而非同类别的特征分散。

[0073] 同时，还将本公开的方法也与同非线性函数的MLP进行了比较，在两个数据上，本公开的方法均取得了显著的优势，具体见下表2。值得一提的是，本发公开是无参数的方法，可以很方便的插入任何现有的网络。

[0074] 表2识别结果比对

[0075]

[0076] 为了进一步验证本公开实施例的有效性，随机挑选了50个类别分别在频域和空域上的识别结果。验证结果如图6所示，可以发现，本公开的方法利用频域方法与空间域方法的互补性，可以在空间域上获得更好的识别结果。

[0077] 综上，本公开首次在细粒度识别任务中加入了特征的傅立叶变换步骤，降低了过拟合的概率，且变换后的结果得到的增强特征与空间域的特征形成了互补性，即可以从不同的维度获得互补特征，让网络学习更有鉴别力的特征，提升了识别的准确率。在细粒度识别的表现，甚至优于同是非线性变换的MLP层。且本公开是一种无参数的算法，不需要引入额外的参数，便可以提升识别准确率，再有，本公开也是一种即插即用的算法，可以插入任何网络。还有，本公开不会改变图像本身的表征，而是一种在特征上增强的手段。

[0078] 图7是根据一示例性实施例示出的一种图像处理模型的训练装置的框图。参照图7，图像处理模型包括特征提取网络和处理网络，该装置包括训练样本获取单元70、特征提取单元72、增强特征获取单元74、处理单元76、目标函数确定单元78和训练单元710。

[0079] 训练样本获取单元70，被配置为获取训练样本集，其中，训练样本集包括多个训练图像和多个训练图像对应的标注的处理结果；特征提取单元72，被配置为将训练图像输入到特征提取网络，提取训练图像的特征；增强特征获取单元74，被配置为获取训练图像的特征在频域上的幅度谱，并基于幅度谱得到训练图像的增强特征；处理单元76，被配置为将训练图像的特征和增强特征分别输入到处理网络，得到与训练图像的特征对应的第一预估处理结果和与增强特征对应的第二预估处理结果；目标函数确定单元78，被配置为基于第一预估处理结果和对应的标注的处理结果，确定第一目标损失函数；基于第二预估处理结果和对应的标注的处理结果，确定第二目标损失函数；训练单元710，被配置为通过第一目标损失函数和第二目标损失函数调整特征提取网络和处理网络的参数，对图像处理模型进行训练。

[0080] 根据本公开的示例性实施例，增强特征获取单元74，还被配置为对训练图像的特征做频域变换处理，得到特征的实部和虚部；基于特征的实部和虚部，获取特征在频域上的幅度谱。

[0081] 根据本公开的示例性实施例，通过以下之一的频域变换方式对训练图像的特征做频域变换处理：快速傅里叶变换、离散余弦变换。

[0082] 根据本公开的示例性实施例，增强特征获取单元74，还被配置为对幅度谱做归一化处理，将归一化处理后的幅度谱作为训练图像的增强特征

[0083] 根据本公开的示例性实施例，增强特征获取单元74，还被配置为获取特征在频域上的幅度谱的维度和范数；对幅度谱的范数取平方，得到平方后的范数；将平方后的范数除以幅度谱的维度，得到训练图像的增强特征。

[0084] 根据本公开的示例性实施例，训练单元710，还被配置为针对特征提取网络和处理网络中的第一部分参数，通过最小化第一目标损失函数来调整第一部分参数；针对特征提取网络和处理网络中的第二部分参数，通过最小化第二目标损失函数来调整第二部分参数；针对特征提取网络和处理网络中的第三部分参数，通过最小化第一目标损失函数得到与第三部分参数对应的第一调整参数，通过最小化第二目标损失函数得到与第三部分参数对应的第二调整参数，并将第三部分参数调整为第一调整参数和第二调整参数的平均值。

[0085] 根据本公开的示例性实施例，第一部分参数是特征提取网络和处理网络中仅与特征的处理相关的参数，第二部分参数是特征提取网络和处理网络中仅与增强特征的处理相关的参数，第三部分参数是特征提取网络和处理网络中与特征的处理和增强特征的处理相关的参数。

[0086] 根据本公开的示例性实施例，图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。

[0087] 图8是根据一示例性实施例示出的一种图像处理装置的框图。参照图8，图像处理模型包括特征提取网络和处理网络，该装置包括图像获取单元80、特征提取单元82和处理单元84。

[0088] 图像获取单元80，被配置为获取待处理的图像；特征提取单元82，被配置为将待处理图像输入到图像处理模型的特征提取网络，提取待处理训练图像的特征，其中，图像处理模型是根据如上任一项的图像处理模型的训练方法训练得到的；处理单元84，被配置为将待处理训练图像的特征输入到图像处理模型的处理网络，得到待处理图像的处理结果。

[0089] 根据本公开的示例性实施例，图像处理模型包括：图像识别模型、图像分割模型、图像增强模型。

[0090] 根据本公开的实施例，可提供一种电子设备。图9是根据本公开实施例的一种电子设备900的框图，该电子设备包括至少一个存储器901和至少一个处理器902，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的图像处理模型的训练方法及图像处理方法。

[0091] 作为示例，电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

[0092] 在电子设备900中，处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器902还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

[0093] 处理器902可运行存储在存储器中的指令或代码，其中，存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

[0094] 存储器901可与处理器902集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器902可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器902能够读取存储在存储器901中的文件。

[0095] 此外，电子设备900还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

[0096] 根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的图像处理模型的训练方法及图像处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD‑ROM、CD‑R、CD+R、CD‑RW、CD+RW、DVD‑ROM、DVD‑R、DVD+R、DVD‑RW、DVD+RW、DVD‑RAM、BD‑ROM、BD‑R、BD‑R LTH、BD‑RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

[0097] 根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的图像处理模型的训练方法及图像处理方法。

[0098] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

[0099] 应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

图像处理模型的训练方法及装置、图像处理方法及装置转让专利

申请号 : CN202110924874.6

文献号 : CN113537151B

文献日 : 2023-10-17

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 磯部駿 , 陶鑫 , 章佳杰 , 戴宇荣

申请人 : 北京达佳互联信息技术有限公司

摘要 :

权利要求 :

说明书 :