用于处理和生成图像和标签图的生成对抗网络转让专利

申请号 : CN202210902002.4

文献号 : CN115700793A

文献日 : 2023-02-07

用于处理和生成图像和标签图的生成对抗网络。生成对抗网络，包括：生成器，被配置用于生成图像和对应的标签图；鉴别器，被配置用于确定所提供的图像和所提供的标签图的分类，其中该分类表征所提供的图像和所提供的标签图是否已经由生成器生成，并且确定该分类包括以下步骤：确定所提供的图像的第一特征图；根据所提供的标签图掩蔽第一特征图，从而确定掩蔽的特征图；全局汇集掩蔽特征图，从而确定被所提供的标签图掩蔽的所提供的图像的特征表示；基于所述特征表示确定所述图像的分类。

1.一种生成对抗网络（70）包括：

·生成器（71），被配置用于生成图像（711）和对应的标签图（712）；

·鉴别器（72），被配置用于确定表征所提供的图像和所提供的标签图的分类（）的输出（y），其中所述分类（）表征所提供的图像和所提供的标签图是否已经由生成器生成，并且确定所述分类（）包括以下步骤：·确定所提供的图像的第一特征图（F1）；

·根据所提供的标签图掩蔽（726）第一特征图，从而确定掩蔽的特征图（M1，M2）；

·全局汇集（724）掩蔽特征图（M1，M2），从而确定被所提供的标签图掩蔽的所提供图像的特征表示；

·基于所述特征表示确定所述图像的分类（）。

2.根据权利要求1所述的生成对抗网络（70），其中，所提供的标签图表征所提供的图像的语义分割，并且为由语义分割表征的类确定掩蔽特征图（M1，M2）。

3.根据权利要求1所述的生成对抗网络（70），其中，所提供的标签图表征所提供的图像的区域，并且为由所述区域表征的类确定掩蔽特征图。

4.根据权利要求1至3中任一项所述的生成式对抗网络（70），其中，所述鉴别器进一步被配置为基于第二特征图（F2）来确定所述分类，其中所述第二特征图（F2）是通过对所述第一特征图（F1）应用1x1卷积（722）来确定的。

5.根据权利要求1至4中任一项所述的生成对抗网络（70），其中，所提供的标签图表征所提供的图像的像素的类成员资格。

6.根据权利要求5所述的生成对抗网络（70），其中，通过将第一特征图（F1）中不属于由语义分割表征或者由区域表征的类的像素设置为零，为所述类确定掩蔽特征图M1、M2。

7.根据权利要求1至6中任一项所述的生成对抗网络（70），其中，所述生成器（71）被配置为基于随机抽取值（R）生成所述图像和对应的标签图。

8.根据权利要求1至7中任一项所述的生成对抗网络（70），其中，所述生成器（71）和/或鉴别器（72）表征卷积神经网络。

9.一种用于训练根据权利要求1至8中任一项的生成对抗网络的计算机实现的方法（100），其中训练包括以下步骤：·从生成对抗网络（70）的生成器（71）生成（101）第一图像（711）和对应的第一标签图（712）；

·由生成对抗网络（70）的鉴别器（72）确定（102）表征第一图像（711）和第一标签图（712）的分类（）的第一输出（y）；

·基于所述第一输出（y），训练（103）所述鉴别器（72）以将所述第一图像（711）和第一标签图（712）分类到第一类中，所述第一类表征已经由所述生成器生成的图像和标签图；

·基于所述第一输出，训练（104）所述生成器（71）以生成图像和对应的标签图，所述图像和对应的标签图被分类到第二类中，所述第二类表征尚未由所述生成器（71）生成的图像和标签图；

·由鉴别器（72）确定（105）表征所提供的第二图像和所提供的第二标签图的分类的第二输出，其中所述第二图像和第二标签图不是由所述生成器（71）提供的；

·基于所述第二输出，训练（106）所述鉴别器（72）以将所述第二图像和第二标签图分类到所述第二类中。

10.一种用于训练或测试机器学习系统的计算机实现的方法，包括以下步骤：·从根据权利要求1至8中任一项的生成对抗网络（70）的生成器（71）确定图像和对应的标签图；

·训练机器学习系统以确定当所提供的图像作为输入时表征标签图的输出，或者测试机器学习系统，当所提供的图像作为输入时机器学习系统的输出在何种程度上表征标签图。

11.一种用于对图像和对应的标签图进行分类的计算机实现的方法，其中，所述图像和对应的标签图由根据权利要求1至8中任一项的生成对抗网络（70）的鉴别器（72）进行分类。

12.根据权利要求11所述的方法，其中，基于所述生成对抗网络（70）的分类来控制致动器（10）和/或显示器（10a）。

13.一种训练系统（140），被配置为实行根据权利要求9或10的训练方法。

14.一种计算机程序，被配置为如果所述计算机程序由处理器（45）实行，则使得计算机实行根据权利要求9至12中任一项的方法及其所有步骤。

15.一种机器可读存储介质（46），其上存储了根据权利要求14的计算机程序。

用于处理和生成图像和标签图的生成对抗网络

技术领域

[0001] 本发明涉及一种用于处理和生成图像的生成对抗网络、一种用于训练生成对抗网络的方法、一种用于训练机器学习系统的方法、一种借助于生成对抗网络对图像进行分类的方法、一种训练系统、一种计算机程序和一种机器可读存储介质。现有技术

[0002] Zhang等人的“DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort”（2021年4月20日，https://arxiv.org/abs/2104.06490v2）公开了一种用于生成图像和标签图的生成对抗网络。

背景技术

[0003] 诸如神经网络之类的机器学习系统被用在几乎所有的技术领域中。然而，这样的机器学习系统的性能关键取决于训练它们所用的数据。机器学习系统令人满意的泛化能力通常仅可以在利用大量且多样的数据集进行训练时被实现。

[0004] 尤其是对于诸如语义分割或对象检测之类的计算机视觉任务，收集这样的数据集是困难的任务，因为标注所需的数据消耗了专家人类标注员的大量时间。因此，将合期望的是设计一种方式，其允许自动生成用于语义分割或对象检测的标签，优选地同时还允许生成与所生成的标签相对应的图像。

[0005] 在本发明中提出的生成对抗网络的优点在于，它允许准确地生成图像及其对应的语义分割标签或对象检测标签。作为额外的特征，生成对抗网络允许准确地分类所提供的图像和所提供的对应标签是否来自用于训练生成对抗网络的分布。

发明内容

[0006] 在第一方面，本发明涉及一种生成对抗网络，包括：·生成器，被配置用于生成图像和对应的标签图；
·鉴别器，被配置用于确定表征所提供的图像和所提供的标签图的分类的输出，其中该分类表征所提供的图像和所提供的标签图是否已经由生成器生成，并且确定该分类包括以下步骤：
·确定所提供的图像的第一特征图；
·根据所提供的标签图掩蔽第一特征图，从而确定掩蔽的特征图；
·全局汇集掩蔽特征图，从而确定被所提供的标签图掩蔽的所提供图像的特征表示；
·基于所述特征表示确定所述图像的分类。

[0007] 如本发明中提出的生成对抗网络（GAN）可以理解为如现有技术中已知的GAN的专用形式。它是来自机器学习领域的模型，包括两个组件，即生成器和鉴别器。与已知的GAN相比，生成器被配置为不仅生成图像，而且还标注对应于相应图像的图。

[0008] 标签图可以被理解为表征标签图所对应的图像的标签。术语“对应”可以理解为标签图和标签图所表征的图像的一对一关系。换句话说，标签图可以被理解为表征关于图像的元信息。标签图尤其可以被理解为标签图所对应的图像像素的表征类成员。例如，标签图可以以与图像相同宽度和高度的矩阵的形式给出，其中矩阵的元素表征了图像像素的类。在这种情况下，元素由沿着矩阵的宽度和高度的位置来表征，并且表征图像中相同位置处的像素的类。替代地，标签图可以由张量给出，所述张量优选地是具有特定高度、宽度和深度的三维张量。高度和宽度可以优选地与图像的相同，而张量可以优选地沿着其深度维度包含与对于图像像素存在的可能类一样多的元素。在这种情况下，张量可以尤其借助于独热编码（one‑hot encoding）对像素的类进行编码，其中独热编码是张量在沿着张量的宽度和高度的特定位置的切片，即独热编码是向量。

[0009] 然而，标签图也可以作为类成员的更抽象定义给出。例如，标签图可以由一个边界框或多个边界框给出，每个边界框表征对应图像的矩形区域。每个边界框可以进一步在相应边界框的位置处表征关于图像中描绘的对象的类的信息，例如，包含类标签或与类相关联的其他信息。然而，标签图不需要被限制到一个边界框或多个边界框。它通常可以是任何种类的多边形或多个任何种类的多边形，优选但不一定是凸多边形。多边形可以被理解为标示属于特定类的图像区域。例如，图像中的对象可以借助于凸包（即凸多边形）来注释。

[0010] 如果标签图表征了一个多边形或多个多边形（包括边界框），则对应于该标签的图像中没有落入被表征为标签图的任何多边形中的像素可以被理解为特殊类，通常称为“背景类”。

[0011] 如果标签图表征了一个多边形或多个多边形，则可以通过为与标签图相对应的图像中的每个像素分配其落入的多边形的类，或者在其不落入任何多边形的情况下分配背景类，来将标签图转换为表征语义分割的标签图。

[0012] GAN进一步包括鉴别器，该鉴别器被配置为确定表征所提供的图像和所提供的标签图的分类的输出。换句话说，鉴别器被配置为对所提供的图像和所提供的标签图进行分类。如对于GAN而言常见的是，鉴别器寻求对其输入（即，所提供的图像和所提供的标签图）是否已经由生成器生成进行分类。在常见的GAN术语中，涉及由生成器生成的图像和标签图的类也可以被称为“虚假类”，而其他类可以被称为“真实类”或“现实类”。鉴别器被配置为基于图像确定第一特征图。例如，第一特征图可以是图像本身。然而，优选地，第一特征图可以是至少一个卷积层的输出，优选地是多个卷积层的输出。例如，鉴别器可以包括被连接成前馈神经网络的卷积层块。该块可以被理解为鉴别器的子神经网络。子神经网络将所提供的图像取作输入，并且根据其确定特征图。

[0013] 特征图可以被理解为关于图像的表征信息。特征图可以优选地以三维张量的形式给出。张量包括高度轴、宽度轴和深度轴。张量可以被理解为包括沿着张量的高度轴和宽度轴位于特定空间位置的向量（沿着深度轴）。在该意义上，第一特征图可以由与所提供的图像具有相同宽度和高度的三维张量给出。在张量的特定空间位置处的向量然后可以被理解为表征图像像素的特征向量，其中图像在图像中具有与张量中的特征向量具有的相同空间位置（例如，分别由沿着张量和图像的宽度和高度轴的坐标标示）。

[0014] 在下文中，当提及特征图及其张量特性时，还应当理解，如果图像被用作特征图，则特征图仍然可以被理解为具有与图像中存在的通道一样多的沿着深度维度的元素的张量。

[0015] 鉴别器被配置为根据所提供的标签图来掩蔽第一特征图。在该意义上，掩蔽可以被理解为将第一特征图的特定元素设置为预定义值，优选为零。特别地，可以掩蔽第一特征图，以将第一特征图的所有元素设置为预定义值，所述第一特征图的所有元素不对应于由所提供的标签图表征的类。从技术上而言，这可以通过首先确定与所提供的图像相同高度和宽度的矩阵来实现，其中如果在图像中具有与矩阵中的元素相同的空间位置的像素属于该类，则该矩阵的元素被设置为一。否则，该元素可以被设置为零。这样，构造了仅由零和一组成的矩阵。然后，第一特征图和矩阵可以逐元素相乘，以便确定掩蔽的特征图。为此，尤其可以沿着第一特征图的深度维度复制逐元素乘法（也称为跨越第一特征图传播的矩阵）。

[0016] 然后，通过全局汇集操作来处理掩蔽特征图。掩蔽的特征图可以被理解为三维张量。这也可以理解为沿着张量的深度维度堆叠的多个矩阵。全局汇集操作可以被理解为通过从多个矩阵的每个矩阵中提取单个值来提取特征表示。换句话说，全局汇集可以被理解为汇集操作，其中接受域是整个输入。汇集操作尤其可以实现为神经网络的汇集层。全局汇集操作可以优选地是全局平均汇集操作。其他可能的全局汇集操作包括全局最大汇集。

[0017] 所提出的GAN的优点在于，生成器和鉴别器的特定设计允许生成看起来像来自训练数据集的其他图像的图像，GAN已经用该训练数据集进行了训练，同时还能够生成高度准确的标签图，即所生成图像的注释。作为附加效果，鉴别器的设计允许准确预测所提供的图像与所提供的标签图的组合是否看起来像来自前述训练数据集的数据。这对于检测所提供的与标签图组合的图像是否表征了从例如传感器确定的图像或者该图像是否表征了已经被篡改的图像可能是尤其有利的。发明人发现鉴别器预测的高准确度是由其设计引起的，即其根据所提供的标签图掩蔽掉元素的可能性，从而引导分类过程查看所提供的标签图所建议的对象。这样，分类基于比单独图像更多的信息。

[0018] 应当注意，所提出的GAN尤其可以被理解为经训练的GAN，即，GAN的生成器和鉴别器已经被训练，以便实现它们期望的目的。

[0019] 优选地，生成器和鉴别器被实现为神经网络。由于GAN被配置用于生成和/或分类图像，所以生成器和鉴别器可以优选地被实现为卷积神经网络。

[0020] 发明人发现，如果生成器和/或鉴别器被实现为神经网络，特别是深度神经网络，则可以改进所生成的图像和所生成的标签图的准确度以及鉴别器的分类准确度。

[0021] 由生成器生成图像和对应的标签图可以优选地借助于提供至少一个随机数、优选地多个随机数——例如以向量、矩阵或张量的形式——作为生成器的输入并且在给定输入的情况下确定图像和标签图作为生成器的输出来实现。

[0022] 可能的是，所提供的标签图表征了所提供的图像的语义分割，并且为由语义分割表征的类确定掩蔽特征图。优选地，为由语义分割表征的每个类确定掩蔽特征图。

[0023] 该实施例可以被理解为确定至少一个但优选多个掩蔽特征图，即，对于在所提供的标签图中存在的每个类一个掩蔽特征图。然后，鉴别器的分类可以基于每个掩蔽特征图是否将所提供的图像和所提供的标签图表征为源自生成器。通过为每个类确定掩蔽特征图，准确度被进一步改进，因为所提供的标签图必须对所有类而不仅仅是一个类或类的子集是准确的。在GAN的训练期间，这引导生成器能够生成更准确的标签图。

[0024] 还可能的是，所提供的标签图表征所提供的图像的区域，并且为由区域表征的类确定掩蔽特征图。优选地，为由区域表征的每个类确定掩蔽特征图。

[0025] 所提供的标签图可以例如表征属于特定类的图像的多边形区域。这种情况的典型示例是边界框，其中边界框携带关于图像中由边界框包围的对象的类的附加信息。

[0026] 该实施例的优点类似于使用语义分割作为所提供的标签图的实施例，即鉴别器能够将其分类基于每个掩蔽特征图是否将所提供的图像和所提供的标签图表征为源自生成器。

[0027] 一般而言，可能但不是必需的是，生成器生成与鉴别器被配置用于处理的相同类型的标签图。例如，生成器可以生成语义分割形式的标签图，并且鉴别器可以被配置为处理以语义分割形式提供的标签图（并且同样在标签图表征区域的情况下）。然而，也可能的是生成器根据鉴别器的配置生成不同种类的标签图。在这种情况下，所生成的标签图在被用作鉴别器的输入之前被处理。例如，如果生成器生成表征区域的标签图，则表征语义分割的标签图可以通过将语义分割的每个元素设置为由生成的标签图的区域所表征的类来获得。同样，通过确定语义分割的连接元素的凸包，可以将表征语义分割的生成的标签图变换成表征区域的标签图。

[0028] 换句话说，所提供的表征区域的标签图以及所提供的表征语义分割的标签图二者都可以被理解为表征所提供的图像的像素的类成员资格。

[0029] 通过将第一特征图中不属于由语义分割表征或者由区域表征的类的所有像素设置为零，可以尤其为该类确定掩蔽特征图。

[0030] 第一特征图的像素可以尤其理解为表征第一特征图的张量的向量，其中该向量沿着张量的深度维度定位，并且具有关于张量的宽度和高度的空间位置。表述“张量的像素”因此可以理解为“图像的像素”的类比。然后，可以然后通过将张量的特定像素设置为预定义值来实现掩蔽第一特征图。将像素设置为预定义值可以理解为将向量的元素设置为预定义值，特别是将向量的所有元素设置为预定义值。有利的是，如果预定义值为零，则随后的操作将隐含地将相应的像素视为被掩蔽，因此考虑如何在计算机上执行鉴别器。

[0031] 在另外的实施例中，可能的是鉴别器可以进一步被配置为基于第二特征图来确定分类，其中第二特征图是通过对第一特征图应用1×1卷积来确定的。

[0032] 这些实施例可以被理解为鉴别器能够基于所提供的图像的布局来确定其分类。优选地，第二特征图是对第一特征图应用单个1x1卷积的结果。应用1×1卷积可以优选地借助于卷积层来实现，该卷积层包括具有1×1核大小的滤波器（优选地仅为单个滤波器）。通过应用1x1卷积，第一特征图的信息被压缩。发明人发现，该压缩使得鉴别器除了从掩蔽第一特征图导出的内容信息之外，还能够导出关于所提供图像的布局的信息。换句话说，鉴别器能够确定，虽然特定掩蔽特征图原则上可以表征有意义的对象，但是它们在所提供的图像中的位置相对于在用于训练GAN的训练数据集中提供的图像（例如，天空中的汽车）可能是非常不正确的。鉴别器可以单独对布局进行分类，即鉴别器可以输出两个分类：一个分类表征掩蔽特征图表征内容属于虚假类还是现实类，并且另一个分类表征布局表征来自虚假类还是现实类的内容。

[0033] 发明人发现，基于所提供图像的布局使用1×1卷积来确定分类进一步改进了鉴别器的分类准确度。

[0034] 在另一方面，本发明涉及一种根据第一方面的实施例的用于训练生成对抗网络的计算机实现的方法，其中训练包括以下步骤：·从生成对抗网络的生成器生成第一图像和对应的第一标签图；
·由生成对抗网络的鉴别器确定表征第一图像和第一标签图的分类的第一输出；
·基于所述第一输出，训练所述鉴别器以将所述第一图像和第一标签图分类到第一类中，所述第一类表征已经由所述生成器生成的图像和标签图；
·基于所述第一输出，训练所述生成器生成图像和对应的标签图，所述图像和对应的标签图被分类到第二类中，所述第二类表征尚未由所述生成器生成的图像和标签图；
·由所述鉴别器确定表征所提供的第二图像和所提供的第二标签图的分类的第
二输出，其中所述第二图像和第二标签图不是由所述生成器提供的；
·基于所述第二输出，训练所述鉴别器以将所述第二图像和第二标签图分类到所述第二类中。

[0035] 第二图像和第二标签图尤其可以被理解为源自GAN的训练数据集。训练GAN可以被理解为教导GAN学习训练数据集的图像和对应标签图的概率分布，使得它能够生成“看起来像”来自训练数据集的数据的图像和标签图。

[0036] 训练方法可以理解为用于训练生成对抗网络的常见零和博弈方法。然而，由于GAN的有利设计（即，其特定的生成器和其特定的鉴别器），训练方法确定了在生成图像和对应的标签图以及对所提供的图像和所提供的标签图进行分类方面更准确的GAN。由于训练是作为零和博弈进行的，因此改进鉴别器的分类准确度直接改进了生成器生成的图像和标签图的准确度。这是由于生成器必须能够确定关于训练数据集的更多和更准确的输出以便保持零和博弈平衡的事实。

[0037] 训练GAN可以优选地借助于（优选地随机）梯度下降算法来实现，该（优选地随机）梯度下降算法使用鉴别器分类的负对数似然性作为损失函数。如果鉴别器确定了多个分类，例如，对于每个掩蔽特征图或相对于第二特征图的分类有一个分类，则可以对为每个分类确定的负对数似然值取平均，以便确定梯度下降算法的损失值。

[0038] 有利的是，发明人发现GAN的特定设计允许利用甚至非常有限量的训练数据来训练GAN。事实上，可以用单个图像来训练GAN，而不经历诸如过拟合或模式崩溃之类的这样的小训练数据集的常见困难。

[0039] 在另一方面，本发明涉及一种用于训练或测试机器学习系统的计算机实现的方法，包括以下步骤：·根据本发明的GAN的实施例，从生成对抗网络的生成器确定图像和对应的标签
图；
·训练机器学习系统以确定当所提供的图像作为输入时表征标签图的输出，或者测试机器学习系统，当所提供的图像作为输入时机器学习系统的输出在何种程度上表征标签图。

[0040] 用于训练的方法可以理解为使用生成的（有时也称为合成的）图像来训练机器学习系统的监督式训练方法。机器学习系统例如可以是神经网络，其被训练用于图像分析。

[0041] 用于训练的方法可以优选地包括用来自训练数据集的图像和标签图以及由GAN的生成器生成的图像和标签图来训练机器学习系统。优选地，在生成图像和标签图之前，用训练数据集训练GAN。

[0042] 由于可以以自动化的方式从GAN获得更多的图像和标签图，所以训练方法改进了机器学习系统的准确性。

[0043] 如果用于测试，则该方法可以理解为生成用于待被测试的机器学习系统的测试数据集。机器学习系统的输出表征标签图的程度可以被理解为用于评估机器学习系统的性能的度量。例如，如果机器学习系统被配置用于语义分割，则均值交并比可以被用作度量。如果机器学习系统被配置用于对象检测，则均值平均精度可以被用作度量。

[0044] 在另一方面，本发明涉及一种用于对图像和对应的标签图进行分类的计算机实现的方法，其中，根据本发明第一方面的实施例，图像和对应的标签图由生成对抗网络的鉴别器进行分类。

[0045] 用于对图像进行分类的方法可以被理解为评估图像和对应的标签图是否是现实类的一部分，即，是否可能来自由GAN的训练数据集表征的概率分布。用于分类的方法可以例如用于检测对抗的示例。例如，机器学习系统可以被配置为确定用于图像的标签图。然后，图像和确定的标签图可以被转发给鉴别器。如果鉴别器认为图像和所确定的标签图属于现实类，则标签图可以被进一步处理，例如由自主设备处理。否则，在另外的处理中，所确定的标签图可能被拒绝或忽略。

附图说明

[0046] 将参考以下各图更详细地讨论本发明的实施例。各图示出：图1是生成对抗网络；
图2是用于训练生成对抗网络的方法；
图3是包括生成对抗网络的控制系统；
图4是控制至少部分自主的机器人的控制系统。

具体实施方式

[0047] 图1示出了生成对抗网络，即GAN。GAN包括生成器（71），该生成器（71）被配置为基于用作输入的随机抽取值（R）来确定图像（711）和对应的标签图（712）作为输出。随机抽取值（R）也可以是用作生成器（71）的输入的多个随机抽取值的一部分，例如以向量、矩阵或张量的形式。确定来自生成器（71）的输出也可以称为生成输出。生成器（71）可以优选地被实现为神经网络。

[0048] GAN进一步包括鉴别器（72），该鉴别器（72）被配置为接受所提供的图像（711）和所提供的标签图（712），并确定表征所提供的图像和所提供的标签图的分类（）的输出（y）。鉴别器（72）可以优选地由神经网络实现。

[0049] 为此，鉴别器（71）可以包括可选的第一单元（721），该第一单元（721）被配置为基于所提供的图像（711）来确定第一特征图（F1）。第一单元（721）尤其可以是神经网络，特别地是卷积神经网络。如果第一单元（721）是神经网络，则第一单元（721）可以通过将所提供的图像（711）转发通过第一单元（721）的层来处理所提供的图像（711）。这样确定的输出然后可以被用作第一特征图（F1）。替代地，所提供的图像（711）可以直接用作第一特征图（F1）。

[0050] 第一特征图（F1）然后根据所提供的标签图（712）被掩蔽。在该实施例中，所提供的标签图（712）表征语义分割。特别地，所提供的标签图（712）可以表征像素类的独热编码的张量。独热编码尤其可以是张量的像素，即，沿着张量的深度维度定位并且沿着张量的宽度和高度具有空间位置。对于掩蔽，张量可以沿着深度维度被切片，以便提取不同的矩阵，每个矩阵由零和一组成。这些矩阵中的每一个对应于由所提供的标签图表征的类。不同的矩阵也可以理解为不同的掩码，其中每个类存在一个掩码。然后，在鉴别器（72）的掩蔽操作（726）中使用每个掩码。该掩蔽操作（726）的结果优选地是每个掩码的掩蔽特征图（M1，M2），即每个类的掩蔽特征图（M1，M2）。

[0051] 如果所提供的标签图（712）表征了类索引的矩阵，则在掩蔽操作之前，所提供的标签图可以被转换成独热编码的张量。同样，如果所提供的标签图（712）表征区域，例如像边界框一样的多边形区域，则所提供的标签图（712）可以在掩蔽操作之前被转换成独热编码。为此，所提供的图像（711）中的每个像素可以根据该像素落入的区域被分配一个类。如果像素没有落入由所提供的标签图表征的任何区域（712），则该像素可以被分配到“背景”类。这样，从由所提供的标签图表征的区域（712）确定语义分割。如上面解释的，语义分割然后可以用于掩蔽。

[0052] 所确定的掩蔽特征图（M1，M2）然后由全局汇集操作处理。全局汇集操作可以优选地是全局平均汇集操作。在另外的实施例中，全局汇集操作也可以是全局最大汇集操作。全局汇集操作的结果可以被理解为表征根据所提供的标签图（712）的类掩蔽的所提供的输入图像（711）的特征表示。优选地，鉴别器（72）确定用于每个掩蔽特征图（M1，M2）的特征表示。

[0053] 特征表示然后由鉴别器（72）的第二单元（725）处理。第二单元（725）尤其可以是神经网络，特别地是多层感知器，即全连接神经网络。对于每个特征表示，第二单元（725）可以确定分类（），每个分类表征相应的特征表示表征现实类还是虚假类。第二单元（725）可以尤其执行多类分类，其中虚假类是可以从第二单元（725）预测的多个类之一。在该实施例中，当所提供的图像（711）和所提供的标签图（712）源自生成器（71）时，合期望的是第二单元（725）预测用于每个特征表示的虚假类。在另外的实施例中，所提供的图像（711）和所提供的标签图（712）可以例如源自用于训练生成对抗网络（70）的训练数据集。在这种情况下，将合期望的是第二单元（725）预测特征表示落入现实类。如果第二单元（725）被配置用于多类分类，则合期望的是第二单元（725）预测表征在确定特征表示的过程中用于掩蔽的类的类。由第二单元（725）确定的分类（）然后被提供作为鉴别器（72）的输出（y）。

[0054] 在另外的实施例中，可能的是鉴别器（72）包括用于评估所提供的图像的布局是否指示图像已经从生成器（71）提供的操作单元。优选地，鉴别器（72）包括卷积层，该卷积层包含核大小为1×1的单个滤波器。卷积层处理第一特征图（F1），从而确定第二特征图（F2）。第二特征图（F2）然后可以用作第三单元（723）的输入，其中第三单元（723）优选地是神经网络，特别地是卷积神经网络。第三单元（723）将第二特征图（F2）取作输入，并且确定表征第二特征图（F2）并且从而表征所提供的图像（711）的布局的分类（yl）。分类（yl）尤其可以是表征现实类或虚假类的二元分类。分类（yl）然后也可以在鉴别器（72）的输出（y）中提供。

[0055] 图2示意性地示出了用于训练生成对抗网络（70）的方法（100）。

[0056] 在第一步骤（101）中，向生成器（71）提供随机抽取值（R）的向量作为输入，并且确定表征第一图像（711）和第一标签图（712）的输出。

[0057] 在第二步骤（102）中，鉴别器（72）确定表征一个分类（）、可能地多个分类（）的输出（y）。

[0058] 在第三步骤（103）中，鉴别器（72）然后被训练以将第一图像（711）和第一标签图（712）分类到虚假类中。这优选地借助于梯度下降算法来实现。由输出表征的每个分类（）可以使用虚假分作为每个损失函数的期望类提供给相应的损失函数。对于关于布局的分类，二元交叉熵损失可以用作损失函数，而对于由输出表征的其他分类，多项式交叉熵损失可以用作损失函数。每个损失函数确定一个损失值。然后，损失值可以借助于加权和被聚集成单个损失值。然后，该单个损失值可以用作梯度下降算法的损失值。基于损失值，第一单元（721）和/或第二单元（725）和/或卷积层（722）和/或第三单元（723）的参数梯度然后可以例如借助于自动微分来确定。然后可以根据梯度更新参数。

[0059] 在第四步骤（104）中，基于单个损失值更新生成器（71）的参数。为此，确定单个损失值相对于生成器（71）的参数的梯度。这也可以借助于自动微分来实现。为了训练生成器（71），生成器（71）的参数然后可以根据梯度的正方向、即通过梯度上升来更新。

[0060] 在第五步骤（105）中，向鉴别器（72）提供来自训练数据集的第二图像和对应的第二标签。鉴别器然后确定用于第二图像和第二标签图的输出。

[0061] 在第六步骤（106）中，训练鉴别器（72）将第二图像和第二标签图分类到现实类中。这优选地借助于梯度下降算法来实现。由用于第二图像和第二标签图的输出表征的每个分类可以使用用于确定相应特征表示的期望类的特征表示的掩码类而被提供给相应的损失函数。对于关于布局的分类，二元交叉熵损失可以用作损失函数，而对于由输出表征的其他分类，多项式交叉熵损失可以用作损失函数。每个损失函数确定一个损失值。然后，损失值可以借助于加权和被聚集成单个损失值。然后，该单个损失值可以用作梯度下降算法的损失值。基于损失值，第一单元（721）和/或第二单元（725）和/或卷积层（722）和/或第三单元（723）的参数梯度然后可以例如借助于自动微分来确定。然后可以根据梯度更新参数。

[0062] 然后，步骤（101）至第六步骤（106）可以迭代地重复预定的迭代次数。替代地，如果预定的性能度量（例如，每维度的比特数）落入预定义的阈值以下，则可以终止训练。

[0063] 图3示出了在其环境（20）中的致动器（10）的实施例。致动器（10）与控制系统（40）相互作用。致动器（10）及其环境（20）将被统称为致动器系统。在优选均匀间隔的时间点，传感器（30）感测致动器系统的状态。传感器（30）可以包括几个传感器。传感器（30）是拍摄环境（20）图像的光学传感器。传感器（30）的输出信号（S）（或者，在传感器（30）包括多个传感器的情况下，每个传感器的输出信号（S））被传输到控制系统（40），该输出信号（S）对所感测的状况进行编码。

[0064] 由此，控制系统（40）接收传感器信号（S）流。然后，它取决于传感器信号（S）流计算一系列控制信号（A），然后将一系列控制信号（A）传输到致动器（10）。

[0065] 控制系统（40）在可选的接收单元（50）中接收传感器（30）的传感器信号（S）流。接收单元（50）将传感器信号（S）变换成输入信号（x）。替代地，在没有接收单元（50）的情况下，每个传感器信号（S）可以直接取作输入信号（x）。输入信号（x）可以例如作为从传感器信号（S）的摘录给出。替代地，可以处理传感器信号（S）以产生输入信号（x）。换句话说，输入信号（x）是根据传感器信号（S）提供的。

[0066] 输入信号（x）然后被传递到分类器（60），该分类器（60）被配置用于语义分割或对象检测。

[0067] 分类器（60）由存储在参数存储装置（St1）中并由参数存储装置（St1）提供的参数（）来参数化。

[0068] 分类器（60）从输入信号（x）确定输出信号（o），其中输出信号（o）表征输入信号（x）的语义分割或对象检测。输出信号（o）。输出信号（o）被传输到转换单元（80），该转换单元（80）将输出信号（o）转换成控制信号（A）。控制信号（A）然后被传输到致动器（10）以相应地控制致动器（10）。

[0069] 输入信号（x）和输出信号（o）也被提供给生成对抗网络（70）。生成对抗网络（70）评估输入信号（x）和输出信号（o）是否表征“现实数据”，即用于训练分类器（60）的数据。出于该目的，生成对抗网络（70）已经用与分类器（60）相同的数据进行了训练。换句话说，生成对抗网络（70）知道输入信号（x）和输出信号（o）应该看起来如何。如果它将输入信号（x）和输出信号（o）分类为“虚假数据”，则这指示从传感器（30）获得的数据可能是关键的，例如，分类器（60）没有针对其进行训练并因此不能预期良好分类结果的数据，或者故意恶意的数据——诸如对抗的示例，和/或如由分类器（60）确定的分类是不准确的或错误的。生成对抗网络通过将输入信号（x）和输出信号（o）提供给其鉴别器（72）来对输入信号（x）和输出信号（o）进行分类，如果输出信号（o）不是独热编码中的语义分割图，则对输出信号（o）进行预处理。鉴别器（72）的输出（y）然后被提供作为生成对抗网络（70）的输出，并且还被转发到转换单元（80）。

[0070] 致动器（10）从转换单元（80）接收控制信号（A），被相应地控制并实行对应于控制信号（A）的动作。致动器（10）可以包括控制逻辑，该控制逻辑将控制信号（A）变换成另外的控制信号，该另外的控制信号然后用于控制致动器（10）。

[0071] 在另外的实施例中，控制系统（40）可以包括传感器（30）。在更另外的实施例中，控制系统（40）替代地或附加地可以包括致动器（10）。

[0072] 在仍另外的实施例中，可以设想控制系统（40）替代于致动器（10）或除了致动器（10）之外控制显示器（10a）。

[0073] 此外，控制系统（40）可以包括至少一个处理器（45）和至少一个机器可读存储介质（46），其上存储有指令，所述指令如果被实行，则使得控制系统（40）实行根据本发明的方面的方法。

[0074] 图4示出了实施例，其中控制系统（40）用于控制至少部分自主的机器人，例如至少部分自主的载具（200）。

[0075] 传感器（30）可以包括一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR传感器。这些传感器中的一些或全部优选地但不是必须地集成在载具（200）中。因此，输入信号（x）可以理解为输入图像，并且分类器（60）可以理解为图像分类器。

[0076] 图像分类器（60）可以被配置为基于输入图像（x）检测在至少部分自主的机器人附近的对象。输出信号（y）可以包括表征对象位于至少部分自主的机器人附近何处的信息。然后可以根据该信息确定控制信号（A），例如以避免与检测到的对象碰撞。

[0077] 优选地集成在载具（200）中的致动器（10）可以由载具（200）的制动器、推进系统、发动机、传动系统或转向装置给出。可以确定控制信号（A），使得控制致动器（10），使得载具（200）避免与检测到的对象碰撞。检测到的对象也可以根据图像分类器（60）认为它们最可能是什么——例如行人或树木——来分类，并且控制信号（A）可以取决于分类来确定。

[0078] 如果生成对抗网络（70）的输出（y）中包括的分类（）表征了虚假类，则自主载具（200）可以被相应地控制。这可能意味着将控制移交给载具（200）的驾驶员或操作员，通过例如停在紧急车道上、降低载具（200）的速度、或者将输入信号（x）和/或输出信号（o）提交给特定位置（例如控制中心）以分析输入信号（x）和/或输出信号（o）来假定安全状态。如果包括在生成对抗网络（70）的输出（y）中的至少预定义数量的分类（）表征了虚假类，则也可以触发如上面例示的对载具（200）的适当控制。

[0079] 替代地或附加地，控制信号（A）也可以用于控制显示器（10a），例如用于显示由图像分类器（60）检测的对象。还可以想象，控制信号（A）可以控制显示器（10a），使得如果载具（200）接近与至少一个检测到的对象碰撞，则显示器（10a）产生警告信号。警告信号可以是警告声音和/或触觉信号，例如载具方向盘的振动。

[0080] 还可能的是，如果包括在生成对抗网络（70）的输出（y）中的分类（）表征了虚假类，则借助于显示器通知驾驶员或操作员，例如，通过合适的警告消息说明例如如检测到的环境可能不可信。

[0081] 在另外的实施例中，至少部分自主的机器人可以由另一个移动机器人（未示出）给出，该另一个移动机器人（未示出）可以例如通过飞行、游泳、潜水或行走来移动。移动机器人尤其可以是至少部分自主的割草机，或者至少部分自主的清洁机器人。在所有上述实施例中，可以确定控制信号（A），使得移动机器人的推进单元和/或转向和/或制动被控制，使得移动机器人可以避免与所述标识的对象碰撞。

[0082] 在另外的实施例中，至少部分自主的机器人可以由园艺机器人（未示出）给出，该园艺机器人（未示出）使用传感器（30）、优选地是光学传感器，来确定环境（20）中植物的状态。致动器（10）可以控制用于喷洒液体的喷嘴和/或例如刀片的切割设备。取决于植物的被标识的种类和/或被标识的状态，可以确定控制信号（A）以使得致动器（10）用合适量的合适液体喷洒植物和/或切割植物。

[0083] 在更另外的实施例中，至少部分自主的机器人可以由家用电器（未示出）给出，该家用电器（未示出）例如像是洗衣机、炉子、烤箱、微波炉或洗碗机。例如光学传感器的传感器（30）可以检测将由家用电器进行处理的对象的状态。例如，在家用电器是洗衣机的情况下，传感器（30）可以检测洗衣机内部的衣物状态。然后，控制信号（A）可以取决于检测到的衣物材料来确定。

[0084] 术语“计算机”可以理解为涵盖用于处理预定义计算规则的任何设备。这些计算规则可以是软件、硬件或者软件和硬件混合的形式。

[0085] 通常，多个可以被理解为被索引，即多个中的每个元素被分配唯一的索引，优选地通过将连续的整数分配给多个中包含的元素。优选地，如果多个元素包括N个元素，其中N是多个元素中元素的数量，则元素被分配从1到N的整数。还可以理解，多个元素可以通过它们的索引来访问。

用于处理和生成图像和标签图的生成对抗网络转让专利

申请号 : CN202210902002.4

文献号 : CN115700793A

文献日 : 2023-02-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : A·霍雷娃 , V·苏什科 , 张丹

申请人 : 罗伯特·博世有限公司

摘要 :

权利要求 :

说明书 :