会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 人工神经网络 / 用于图像数据的语义分割的方法和设备

用于图像数据的语义分割的方法和设备

阅读:690发布:2021-02-27

IPRDB可以提供用于图像数据的语义分割的方法和设备专利检索,专利查询,专利分析的服务。并且一种用于借助人工神经网络(尤其卷积神经网络)对成像传感器的图像数据进行节约计算资源的语义分割的方法,其中,该人工神经网络具有编码器路径和解码器路径,其中,该编码器路径过渡到解码器路径中,其中,该过渡通过判别路径实现,其中,在判别路径中执行以下步骤:根据分解函数将输入张量分解成至少一个第一切片张量和至少一个第二切片张量,其中,该输入张量来自所述编码器路径;根据拼接函数,将至少一个第一切片张量与至少一个第二切片张量拼接,以便获得级联张量;将类别张量输出到神经网络的解码器路径。,下面是用于图像数据的语义分割的方法和设备专利的具体信息内容。

1.一种用于借助人工神经网络——尤其卷积神经网络——对成像传感器的图像数据(111)进行节约计算资源的语义分割的方法(400),其中,所述人工神经网络具有编码器路径(110)和解码器路径(120),其中,所述编码器路径(110)过渡到所述解码器路径(120)中,其中,所述过渡通过判别路径(130)实现,其中,在所述判别路径(130)中执行以下步骤:根据分解函数(220,320)将输入张量(113)分解(410)成至少一个第一切片张量(112,

230)和至少一个第二切片张量(112,250),其中,所述输入张量(113)来自所述编码器路径(110);

根据第一拼接函数(260),将所述至少一个第一切片张量(112,230)与所述至少一个第二切片张量(112,250)拼接(420),以便获得至少一个级联张量(132);

根据第二拼接函数,将所述至少一个第一切片张量(112,230)与类别张量(134)拼接(430),以便获得解码器张量(135),其中,所述类别张量来自所述至少一个级联张量(132);

将所述解码器张量(135)输出(440)到所述神经网络的解码器路径(120)。

2.根据权利要求1所述的方法(400),其中,在所述分解(410)的步骤中,所述分解函数(220,320)如此构型,使得仅选择所述输入张量(112)的特征映射(114)的子集来形成所述至少一个第一切片张量(230)。

3.根据权利要求1或2所述的方法(400),其中,所述第一拼接函数(260)和/或所述第二拼接函数如此构型,使得保持所述输入张量(113)的维度不变。

4.根据以上权利要求中任一项所述的方法(400),所述方法具有之前的接收的步骤,其中,在所述接收的步骤中,接收所述输入张量(113)和所述分解函数(220,320)。

5.根据以上权利要求中任一项所述的方法(400),其中,在所述分解(410)的步骤中,将神经网络的第一函数(321)用于所述至少一个第一切片张量(230),并且将神经网络的第二函数(322)用于所述至少一个第二切片张量(250)。

6.根据权利要求5所述的方法(400),其中,所述分解函数(320,321,322)如此构型,使得所述分解函数包括用于计算所述至少一个第一切片张量(230)和所述至少一个第二切片张量(250)的、特征映射的待计算的数量以及人工神经网络的相应函数(321,322)。

7.根据以上权利要求中任一项所述的方法(400),其中,通过使用人工神经网络的函数来将所述级联张量(132)发展成类别张量(134)。

8.一种用于成像传感器的图像数据(111)的语义分割的人工神经网络——尤其卷积神经网络,其中,所述人工神经网络具有用于图像数据的分类的编码器路径以及用于图像数据的定位的解码器路径,其中,所述编码器路径(110)过渡到所述解码器路径(120)中,其中,所述过渡通过判别路径(130)实现,其中,所述网络设置用于在所述判别路径(130)中实施根据权利要求1至6中任一项所述的方法(400)的步骤。

9.一种尤其具有根据权利要求7所述的人工神经网络的设备,所述设备设置用于实施根据权利要求1至6中任一项所述的方法(400)的步骤。

10.一种计算机程序,所述计算机程序设置用于实施根据权利要求1至6中任一项所述的方法(400)的所有步骤。

11.一种机器可读的存储介质,在所述存储介质上存储有根据权利要求7所述的人工神经网络和/或根据权利要求9所述的计算机程序。

说明书全文

用于图像数据的语义分割的方法和设备

技术领域

[0001] 本发明从用于图像数据的语义分割的一种方法或一种设备出发。本发明的主题也是一种计算机程序。

背景技术

[0002] “Evan Shelhamer、Jonathan Long、Trevor Darrell所著的《用于语义分割的全卷积模型》(PAMI:模式分析与机器智能汇刊,2016年)”公开卷积神经网络的一种扩展方案。卷积神经网络是用于处理视觉数据的强大的人工神经网络,其可以产生视觉数据的语义特征层次。该文献公开了使用“全卷积网络”的方案,这种全卷积网络可以接收任意规模的输入数据并且可以借助特征的高效推导输出在大小上对应的输出。
[0003] “Olaf Ronneberger、Philipp Fischer、Thomas Brox所著的《U-Net:用于生物医学图像分割的卷积网络》(MICCAI:医学图像计算和计算机辅助干预,Springer,LNCS,第9351卷)”公开一种人工神经网络的架构和用于如下网络的训练策略:所述网络基于扩展的(增强的)训练数据的使用,以便更高效地使用现有的注释示例。该网络的架构包括用于检测输入数据的上下文的“收缩路径”(编码器路径),以及与其对称地包括“扩展路径”(解码器路径),该解压缩路径能够实现对所检测的图像特征的精确定位。该人工神经网络可以使用数量相对较少的训练数据来进行训练。

发明内容

[0004] 用于图像数据的语义分割、尤其用于图像数据中的对象定位和分类的人工神经网络(尤其所谓的卷积神经网络(CNN))对计算资源具有很高的要求。通过添加解码部件或上采样部件,对计算资源的需求会进一步急剧增加,因为通过添加解码部件或上采样部件,在编码器部件中进行语义分析之后,图像数据恢复为原始分辨率。在一些实施方式中,这可能导致对计算资源的需求呈指数增长。
[0005] 除了对计算资源的需求增大以外,在使用人工神经网络时(尤其在使用CNN时),对图像数据的基于像素的语义分割在该网络的训练阶段和应用期间还需要更多的存储带宽、存储访问和存储空间。
[0006] 只要应用不是在诸如图形处理单元集群(GPU集群)的高存储和分布式计算的特殊计算单元上实现,而是在诸如嵌入式硬件等的嵌入式计算单元上运行,就加剧了对计算资源、存储带宽、存储访问和存储空间的这种附加需求的缺点。
[0007] 在这种背景下,本发明提供用于对成像传感器的图像数据进行语义分割的一种方法、一种人工神经网络、一种设备、一种计算机程序和一种机器可读的存储介质。
[0008] 在本文中,可以将图像数据理解为成像传感器的数据。首先,这可以理解为视频传感器(即摄像机)的数据。由于数据的相似性,借助本发明也可以将雷达传感器的、超声传感器的、激光雷达传感器等的数据作为图像数据来进行处理。因此,在本发明方面,可以将雷达传感器、超声传感器、激光雷达传感器等理解为成像传感器。
[0009] 在此,对于本发明特别重要的是适用于车辆中的应用(即汽车图像传感器)的成像传感器等的图像数据。
[0010] 在本文中,语义分割应理解为对图像数据的处理,旨在不仅求取图像中包含的对象的语义类别,而且求取所述对象在图像中的定位。在此,应考虑的是,图像中的全局信息可以得出关于对象的语义类别的结论,而图像中的局部信息则可以得出关于对象在图像中的定位的结论。
[0011] 本发明的一方面是一种用于借助人工神经网络(尤其卷积神经网络(CNN))来对图像数据进行语义分割的方法。人工神经网络具有编码器路径和解码器路径,该编码器路径用于求取图像数据中的语义类别,该解码器路径用于在图像数据中定位所求取的类别。在编码器路径与解码器路径之间的过渡中存在判别路径(Discriminative Pfad)。该方法在判别路径中包括以下步骤:
[0012] 根据分解函数将输入张量分解为至少一个第一切片张量和至少一个第二切片张量,其中,输入张量来自编码器路径。
[0013] 根据第一拼接函数将至少一个第一切片张量与至少一个第二切片张量拼接,以便获得类别张量。
[0014] 根据第二拼接函数将至少一个第二切片张量与类别张量拼接,以便获得解码器张量。
[0015] 将解码器张量输出到神经网络的解码器路径。
[0016] 在本文中,人工神经网络应理解为人工神经元构成的网络,该人工神经元构成的网络用于处理信息、例如用于处理图像数据(尤其用于对图像数据中的对象进行定位和分类)。
[0017] 在本文中,卷积神经网络(CNN)应理解为人工神经网络的如下类别:这种类别在分类领域中被认为是“现有技术”。CNN的基本结构由卷积层和池化层的任意序列组成,所述卷积层和池化层由一个或多个完全拼接的层终止。相应的层由人工神经元构成。
[0018] 在本文中,编码器路径应理解为从图像数据的处理直至图像数据中的对象分类的路径。
[0019] 在本文中,解码器路径应理解为跟随在编码器路径后面的路径,并且该解码器路径从分类出发,为了定位所分类的对象而恢复原始图像数据。
[0020] 在本文中,判别路径应理解为人工神经网络的编码器路径与人工神经网络的解码器路径之间的过渡区域。这涉及人工神经网络(尤其根据卷积神经网络(CNN)架构的人工神经网络)的架构或结构的最深区段。
[0021] 在本文中,张量应理解为人工神经网络中的处理期间的数据表示。数据集包括图像数据的处理状态和所属的特征映射(feature maps)。人工神经网络中的第i步的l级别的张量通常表示为 其具有n行、m列和f个特征映射。
[0022] 输入张量是在通过本发明的方法进行处理之前的数据表示。根据本发明的输入张量来自人工神经网络(尤其根据卷积神经网络架构的人工神经网络)的编码器路径。即输入张量是人工神经网络的编码器路径中的原始图像数据处理的结果。
[0023] 切片张量是根据本发明的方法的分解步骤之后的数据表示。
[0024] 类别张量是在待处理的图像数据中识别到的或求取到的语义类别的数据表示。类别张量可以表示编码器路径中的处理结果。
[0025] 解码器张量是待处理的图像数据的数据表示,该解码器张量可以用作(尤其根据卷积神经网络架构的)人工神经网络的解码器路径的输入数据集。
[0026] 在本文中,分解函数可以理解为任何如下函数:该函数适合于从输入张量和特征映射的所属集合中选择出适当的数量。这可以通过分解因数、指数等来进行。
[0027] 在本文中,拼接函数可以理解为任何如下函数:该函数适合于将至少一个第一切片张量与至少一个第二切片张量拼接。这可以通过级联、求和、替换、复制等来进行。
[0028] 本发明方法的优点在于所述方法的在编码器路径与解码器路径之间的过渡区域中(即在判别路径中)执行的步骤。
[0029] 该方法的所述步骤的应用可以改善定位的准确性,而不会在判别路径中产生明显的“梯度弥散”效应。
[0030] “梯度弥散”应理解为在人工神经网络的训练中可能发生的效应,即参数的变化消失。在最不利的情况下,这种效应会导致训练参数的改变或改善发生停滞。
[0031] 此外,该方法的所述步骤的应用不取决于硬件。由此,该方法不仅可以容易地在嵌入式的硬件(所谓的嵌入式硬件)上实现而且也可以容易地在GPU集群上实现。
[0032] 根据本发明的方法的一个实施方式,分解步骤中的分解函数如此构型,使得仅选择输入张量的特征映射的子集来形成至少一个第一切片张量。
[0033] 在本文中,特征映射应理解为人工神经网络的层(层级)的输出。CNN通常涉及首先通过卷积层处理、然后由相应的池化层的处理的结果,并且CNN可以用作下一层或(如果提供的话)完全拼接的层的输入数据。
[0034] 根据本发明的方法的一个实施方式,拼接步骤中的拼接函数(合并)如此构型,使得保持输入张量的维度不变。
[0035] 该实施方式具有如下优点:在待使用的计算资源方面,可以使用较少的资源,并且因此可以以人工神经网络(尤其卷积神经网络(CNN))的不同层的更有利信息再次使用计算资源。
[0036] 根据本发明的方法的一个实施方式,该方法具有之前的接收的步骤,其中,在该接收的步骤中,接收输入张量和分解函数。
[0037] 该方法的这种实施方式具有如下优点:与传统的人工神经网络的并行实现相比,这使人工神经网络在较低的成本下更加灵活,并且可以在相应的层(层级)上更精细地响应于相应的输入张量。
[0038] 根据本发明的方法的一个实施方式,在分解步骤中,将人工神经网络的第一函数用于至少一个第一切片张量,并且将人工神经网络的第二函数用于至少一个第二切片张量。
[0039] 在本文中,人工神经网络的函数可以理解为人工神经网络的神经元层的任何函数。这可以是卷积(Convolution)、也可以是卷积块的一种构型:即卷积的多重应用、深度卷积、压缩、残差(Residual)、稠密度(Dense)、起始(Inception)、激活(Activation,Act)、归一化、池化(pooling)。
[0040] 在本文中,起始(Inception)应理解为人工神经网络(尤其卷积神经网络)的架构变体,最早见于Szegedy等人所著的《随着卷积而深入》(在IEEE计算机视觉和模式识别会议上,第1-9页,2015年)。
[0041] 根据本发明的方法的一个实施方式,分解步骤中的分解函数如此构型,使得分解函数包括用于计算至少一个第一切片张量和至少一个第二切片张量的、特征映射的待计算的数量以及人工神经网络或计算图的相应函数。
[0042] 本发明的方法的该实施方式具有如下优点:可以以简单的方式和方法将人工神经网络的不同函数应用于至少一个第一切片张量和至少一个第二切片张量。由此,与传统的人工神经网络的并行实现相比,该人工神经网络在较低的成本下更加灵活,并且该人工神经网络可以更精细地响应于相应的输入张量。
[0043] 本发明的另一方面是一种用于图像数据的定位和分类的人工神经网络,其中,该人工神经网络具有用于图像数据的分类的编码器路径、用于图像数据的定位的解码器路径。在此,编码器路径过渡到解码器路径中。这种过渡通过判别路径来实现。所述网络设置用于在在判别路径中实施根据本发明的方法的步骤。
[0044] 在该人工神经网络的一个实施方式中,人工神经网络可以构型成卷积神经网络。
[0045] 本发明的另一方面是一种设备,该设备设置用于实施根据本发明的方法的步骤。
[0046] 本发明的另一方面是一种计算机程序,该计算机程序设置用于实施根据本发明的方法的步骤。
[0047] 本发明的另一方面是一种机器可读的存储介质,在该存储介质上存储有根据本发明的人工神经网络和根据本发明的计算机程序。

附图说明

[0048] 下面根据附图更详细地阐释本发明的细节和实施方式。
[0049] 附图示出:
[0050] 图1示出所谓的全卷积网络(FCN)的图示,本发明在该全卷积网络中实现;
[0051] 图2示出根据本发明的人工神经网络的一个实施方式的一部分的框图;
[0052] 图3示出根据本发明的人工神经网络的另一实施方式的一部分的框图;
[0053] 图4示出根据本发明的方法的流程图。

具体实施方式

[0054] 图1示出根据所谓的全卷积网络(FCN)架构的人工神经网络的图示,本发明在该全卷积网络中实现。
[0055] 输入数据(可以是成像传感器的数据)的处理路径111从左向右延伸穿过所示的人工神经网络。
[0056] 该网络的左侧部分示出编码器路径110。网络的右侧部分示出解码器路径120。在编码器路径110与解码器路径120之间的过渡区域中,在该网络的最深位置处存在判别路径130。
[0057] 通过使用分解函数,在编码器路径110中产生切片张量112,将该切片张量提供给解码器路径120。这通过虚线箭头和实线箭头示出。
[0058] 每层借助输入张量113结束或开始,该输入张量通常由压缩步骤(池化)产生。
[0059] 判别路径130也以输入张量133开始,该输入张量来自编码器路径110。在所示的网络中,同样通过压缩步骤(池化)。原则上可以设想的是,通过使用人工神经网络的另一函数,可以将编码器路径110中的输入张量133提供给判别路径130作为输入张量133。
[0060] 在判别路径130中,也将分解函数用于输入张量133,以便获得切片张量132。随后,通过使用人工神经网络的函数来产生至少一个类别张量134。
[0061] 随后,通过使用至少一个拼接函数将该类别张量134与判别路径130的至少一个切片张量132拼接,以便获得解码器张量135。
[0062] 随后,将解码器张量135提供给解码器路径120。在那里,首先将解码器张量135上转换为解码器路径120的输入张量123。
[0063] 在所示的实施方式中,通过使用拼接函数将输入张量123与编码器路径110的至少一个张量拼接,以便获得级联张量126。在所示的实施方式中,这涉及编码器路径110的对应层的最后一个编码器张量。
[0064] 如果张量的分辨率能够基本上相应地(即无需大量转换)相互使用,则认为层是对应的。
[0065] 将人工神经网络的至少一种函数用于级联张量126,以便获得校正张量127。
[0066] 通过使用人工神经网络的至少一种函数(以便获得校正张量127),不仅将来自编码器路径110的粗粒度特征而且将来自解码器路径120的细粒度特征彼此拼接。
[0067] 在进一步的进程中,通过使用至少另一拼接函数将校正张量127与编码器路径110的对应层的切片张量112(所谓的跳跃张量)拼接,以便获得结果张量128。
[0068] 通过使用拼接函数,借助校正张量127对解码器路径120的输入张量123进行细化。
[0069] 将结果张量128作为解码器路径120的输入张量123提供给解码器路径120中的下一更高层。
[0070] 在每层中,在解码器路径120中使用的步骤借助框所包围。框内的步骤构成所谓的校正模块121。
[0071] 通过校正模块121,通过使用人工神经网络的函数的步骤(以便获得校正张量127)不仅将来自编码器路径110的粗粒度特征而且将来自解码器路径120的细粒度特征彼此拼接。此外,通过拼接校正张量127的步骤,借助校正张量127对级联张量126进行细化,以便获得结果张量128或产生下一更高层的编码器路径120的输入张量123。
[0072] 图2示出根据本发明的人工神经网络的一个实施方式的一部分的框图。根据该实施方式,在所谓的“张量模式”200中运行根据本发明的人工神经网络或方法。
[0073] 在此,在判别路径130中,在人工神经网络的第i步中示出具有行数n、列数m和特征映射数f的输入张量xi∈Rn×m××f133。此外,存在分解函数(切片)220。根据分解函数(切片)220,将输入张量133分解成至少一个第一切片张量230和至少一个第二切片张量250。在此,可以根据任意的分解函数(切片)220进行分解。此外,可以设想的是,根据分解因数(splitting factor)、根据指数等进行分解。
[0074] 为此设置,至少一个第一切片张量230在判别路径中与类别张量134借助拼接函数拼接成解码器张量135,以便在那里与粗糙的、抽象的特征表示相关联。
[0075] 将至少一个第二切片张量250与至少一个第一切片张量230一起提供给拼接函数(合并)260,以便产生级联张量132。可以使用任何如下规则作为拼接函数(合并)260:该规则适合于将第一切片张量230与第二切片张量250拼接。此外,可以设想的是级联、求和、替换、复制等。
[0076] 将级联张量132设置成在判别路径130中发展成类别张量134。在此,可以通过使用人工神经网络的函数来实现进一步发展。
[0077] 图3示出根据本发明的人工神经网络的另一实施方式的一部分的框图。根据该实施方式,根据本发明的人工神经网络或方法以所谓的“函数模式”300运行。
[0078] 函数模式300的输入数据除了输入张量133以外,还包括分解函数(切片)320。将分解函数(切片)320用于输入张量133,以便获得第一切片张量230和第二切片张量250。此外,与“张量模式”200不同,将人工神经网络321、322的任意函数用于第一切片张量230和第二切片张量250。此外,可以设想的是卷积(Convolution)的多重应用、残差(Residual)、稠密度(Dense)、起始(Inception)、激活(Activation,Act)、归一化、池化(pooling)等。可以将人工神经网络321、322的不同函数用于第一切片张量230和第二切片张量250。
[0079] 为此设置,至少一个第一切片张量230在判别路径中与类别张量134借助拼接函数拼接成解码器张量135,以便在那里与粗糙的、抽象的特征表示相关联。
[0080] 将至少一个第二切片张量250与至少一个第一切片张量230一起提供给拼接函数(合并)260,以便产生级联张量132。作为拼接函数(合并)260可以使用任何如下规则:该规定适合于将第一切片张量230与第二切片张量250拼接。此外可以设想的是级联、求和、替换、复制等。
[0081] 级联张量132设置用于在判别路径130中发展成类别张量134。在此,可以通过使用人工神经网络的函数来实现进一步发展。
[0082] 图4示出根据本发明的方法的流程图。
[0083] 在步骤410中,根据分解函数220、320,将输入张量133分解为至少一个第一切片张量230和至少一个第二切片张量250,其中,输入张量133来自人工神经网络的编码器路径110。
[0084] 这表示,输入张量可以涉及待处理的图像数据111的经过人工神经网络的编码器路径110中的处理之后的数据表示。
[0085] 在步骤420中,根据第一拼接函数260,将至少一个第一切片张量230与至少一个第二切片张量250拼接,以便产生至少一个级联张量132。
[0086] 至少一个级联张量132在判别路径130中进一步发展为类别张量134。在此,可以通过使用人工神经网络的函数来实现所述进一步发展。
[0087] 在步骤430中,借助第二拼接函数将至少一个第一切片张量230在判别路径中与类别张量134拼接成解码器张量135。
[0088] 在步骤440中,将解码器张量135输出到人工神经网络的解码器路径120上,以便通过人工神经网络进一步进行处理。
[0089] 本发明优选适用于汽车系统中的应用(尤其与驾驶员辅助系统结合使用,直到部分自动化的或全自动化的行驶)。
[0090] 在此,特别令人感兴趣的是,对表示车辆的周围环境的图像数据或图像流的处理。
[0091] 可以由车辆的成像传感器来检测这些图像数据或图像流。在此,借助单个传感器进行检测。同样可以设想的是,将多个传感器的图像数据融合,必要时将具有不同的检测传感器(例如视频传感器、雷达传感器、超声传感器、激光雷达传感器)的多个传感器的图像数据进行融合。
[0092] 在此,自由空间的求取(自由空间探测)以及图像数据或图像流中的前景与背景之间的语义区分是特别重要的。
[0093] 通过使用根据本发明的人工神经网络,可以通过图像数据或图像流的处理来求取这些特征。基于该信息,可以相应地操控用于车辆纵向和横向控制的控制系统,使得车辆适当地响应于图像数据中的这些特征的检测。
[0094] 本发明的另一应用领域可以视为:对于基于摄像机的车辆控制系统,执行图像数据或图像数据流的准确预标记(预标签)。
[0095] 在此,待分配的标识(标签)表示应在图像数据或图像流中识别到的对象类别。
[0096] 本发明还能够用于需要借助人工神经网络进行基于像素的准确对象识别(像素方式预测)的所有领域(例如汽车、机器人、健康、监控等)。在此,例如可以提到的是:光流、单色图像数据的深度、数字、边界检测、钥匙卡、对象检测等。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用