一种视觉目标检测模型的训练方法和装置转让专利

申请号 : CN201811598106.0

文献号 : CN109685847B

文献日 : 2021-02-12

本申请公开了一种视觉目标检测模型的训练方法和装置，具体为获取多个第一图片样本，每个第一图片样本包括前景和背景；利用分割‑拼接方法对第一图片样本进行处理，得到多个第二图片样本；利用训练样本集进行模型训练，得到视觉目标检测模型，训练样本集包括多个第一图片样本和多个第二图片样本。由于最终进行模型训练所依据的训练样本集中不仅包括人工标注的第一图片样本，还包括通过分割‑拼接所得的第二图片样本，从而有效扩展了训练样本集中的样本的数量，进而使最终训练所得的视觉目标检测模型的检测效果得到改善。

1.一种视觉目标检测模型的训练方法，其特征在于，包括步骤：获取多个第一图片样本，每个所述第一图片样本包括前景和背景；

利用第三方目标检测与分割工具对所述前景进行定位，将所述前景从所述第一图片样本中分割出来，得到前景图片，并留下空白框，将所述前景图片依次拼接到其他所述第一图片样本的所述空白框，得到多个第二图片样本；

利用训练样本集进行模型训练，得到视觉目标检测模型，所述训练样本集包括所述多个第一图片样本和所述多个第二图片样本。

2.如权利要求1所述的训练方法，其特征在于，所述利用分割-拼接方法对所述第一图片样本进行处理，得到多个第二图片样本，还包括：对得到的第二图片样本进行滤波处理。

3.一种视觉目标检测模型的训练装置，其特征在于，包括：样本获取模块，用于获取多个第一图片样本，每个所述第一图片样本包括前景和背景；

图像拼接模块，用于利用第三方目标检测与分割工具对所述前景进行定位，将所述前景从所述第一图片样本中分割出来，得到前景图片，并留下空白框，将所述前景图片依次拼接到其他所述第一图片样本的所述空白框，得到多个第二图片样本；

模型训练模块，用于利用训练样本集进行模型训练，得到视觉目标检测模型，所述训练样本集包括所述多个第一图片样本和所述多个第二图片样本。

4.如权利要求3所述的训练装置，其特征在于，所示图像拼接模块还包括：滤波处理单元，用于对得到的第二图片样本进行滤波处理。

一种视觉目标检测模型的训练方法和装置

技术领域

[0001] 本申请涉及人工智能技术领域，更具体地说，涉及一种视觉目标检测模型的训练方法和装置。

背景技术

[0002] 对于机器人来说，实现对物体的抓取等操作的前提是对物体的目标检测，即首先必须完成对物体的识别和定位，识别是指确定物体的种类，定位是指确定物体的位置，包括空间位置和方向。目前，主流技术是通过大量的样本对相应模型进行训练，得到相应的检测模型，从而实现对物体的目标检测。

[0003] 然而，在对相应检测模型进行训练时，需要大量标记好的图片作为样本，而人工标记成本高，导致无法得到大量样本，从而导致最终所得检测模型的检测效果较差。

发明内容

[0004] 有鉴于此，本申请提供一种视觉目标检测模型的训练方法和装置，用于解决目前的视觉目标检测模型的检测效果较差的问题。

[0005] 为了实现上述目的，现提出的方案如下：

[0006] 一种视觉目标检测模型的训练方法，包括步骤：

[0007] 获取多个第一图片样本，每个所述第一图片样本包括前景和背景；

[0008] 利用分割-拼接方法对所述第一图片样本进行处理，得到多个第二图片样本；

[0009] 利用训练样本集进行模型训练，得到视觉目标检测模型，所述训练样本集包括所述多个第一图片样本和所述多个第二图片样本。

[0010] 可选的，所述利用分割-拼接方法对所述第一图片样本进行处理，得到多个第二图片样本，包括：

[0011] 将每个所述第一图片样本的前景切割出来，得到单独的前景图片，并留下相应的空白框；

[0012] 将切割出来的所述前景图片依次拼接到其他所述第一图片样本的所述空白框，得到相应的第二图片样本。

[0013] 可选的，所述将每个所述第一图片样本的前景切割出来，得到单独的前景图片，并留下相应的空白框，包括：

[0014] 利用第三方目标检测与分割工具对所述前景进行定位；

[0015] 将所述前景从所述第一图片样本中分割出来，得到所述前景图片，并留下所述空白框。

[0016] 可选的，所述利用分割-拼接方法对所述第一图片样本进行处理，得到多个第二图片样本，还包括：

[0017] 对得到的第二图片样本进行滤波处理。

[0018] 一种视觉目标检测模型的训练装置，包括：

[0019] 样本获取模块，用于获取多个第一图片样本，每个所述第一图片样本包括前景和背景；

[0020] 图像拼接模块，用于利用分割-拼接方法对所述第一图片样本进行处理，得到多个第二图片样本；

[0021] 模型训练模块，用于利用训练样本集进行模型训练，得到视觉目标检测模型，所述训练样本集包括所述多个第一图片样本和所述多个第二图片样本。

[0022] 可选的，所述图像拼接模块包括：

[0023] 切割处理单元，用于将每个所述第一图片样本的前景切割出来，得到单独的前景图片，并留下相应的空白框；

[0024] 拼接处理单元，用于将切割出来的所述前景图片依次拼接到其他所述第一图片样本的所述空白框，得到相应的第二图片样本。

[0025] 可选的，所述切割处理单元包括：

[0026] 前景定位子单元，用于利用第三方目标检测与分割工具对所述前景进行定位；

[0027] 前景分割子单元，用于将所述前景从所述第一图片样本中分割出来，得到所述前景图片，并留下所述空白框。

[0028] 可选的，所示图像拼接模块还包括：

[0029] 滤波处理单元，用于对得到的第二图片样本进行滤波处理。

[0030] 从上述的技术方案可以看出，本申请公开了一种视觉目标检测模型的训练方法和装置，具体为获取多个第一图片样本，每个第一图片样本包括前景和背景；利用分割-拼接方法对第一图片样本进行处理，得到多个第二图片样本；利用训练样本集进行模型训练，得到视觉目标检测模型，训练样本集包括多个第一图片样本和多个第二图片样本。由于最终进行模型训练所依据的训练样本集中不仅包括人工标注的第一图片样本，还包括通过分割-拼接所得的第二图片样本，从而有效扩展了训练样本集中的样本的数量，进而使最终训练所得的视觉目标检测模型的检测效果得到改善。

附图说明

[0031] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0032] 图1为本申请实施例提供的一种视觉目标检测模型的训练方法的流程图；

[0033] 图2为本申请实施例提供的另一种视觉目标检测模型的训练方法的流程图；

[0034] 图3为本申请实施例提供的又一种视觉目标检测模型的训练方法的流程图；

[0035] 图4为本申请实施例提供的又一种视觉目标检测模型的训练方法的流程图；

[0036] 图5为本申请实施例提供的一种视觉目标检测模型的训练装置的框图；

[0037] 图6为本申请实施例提供的另一种视觉目标检测模型的训练装置的框图；

[0038] 图7为本申请实施例提供的又一种视觉目标检测模型的训练装置的框图；

[0039] 图8为本申请实施例提供的又一种视觉目标检测模型的训练装置的框图。

具体实施方式

[0040] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0041] 实施例一

[0042] 图1为本申请实施例提供的一种视觉目标检测模型的训练方法的流程图。

[0043] 如图1所示，本实施例提供的训练方法用于训练视觉目标预测模型，核心在于准备用于对模型进行训练所需要的训练样本集，该模型应用于机器人，以便机器人根据该模型对物体进行目标检测，即对物体进行识别和定位，以便对该物体进行抓取，该训练方法具体包括如下步骤：

[0044] S1：获取多个第一图片样本。

[0045] 第一图片样本中包括人工标注的前景和背景，背景可以认为是该图片样本中面积较大的图像或者说与其中较为突兀的物体相对的图像，例如，草原、天空、大地、沙漠或星空；前景则可以认为是区别与背景的较为突兀的物体，例如草原上的牛羊、天空中飞鸟、大地上的房屋、沙漠上的骆驼或者星空中的月亮。这些背景和前景可以是人工标注的，也可以是通过相应识别工具进行自动检测后标注的。

[0046] S2、利用分割-拼接方法得到多个第二图片样本。

[0047] 在得到多个包括前景和背景的第一图片样本后，对每个第一图片样本进行分割-拼接处理，即将前景从背景中分割出来，并将前景拼接到其他第一图片样本的背景中，以得到第二图片样本。具体来说，通过如下步骤得到第二图片样本，具体如图2所示：

[0048] S21、依次对每个第一图片样本进行切割。

[0049] 通过对第一图片样本的切割，从中将前景从背景中切割出来，从而得到单独的前景图片，并在该前景图片的原处留下空白框。

[0050] S22、依次将前景图片拼接到其他第一图片样本中。

[0051] 具体是将前景图片拼接到其他第一图片样本因切割所留下的空白框中，从而得到相应的第二图片样本。

[0052] 另外，如图3所示，这里的分割-拼接处理还包括如下步骤：

[0053] S23、对得到的第二图片样本进行滤波处理。

[0054] 在将前景图片拼接到留有空白框的第一图片样本中后，对其进行滤波处理，从而起到避免锯齿效应干扰的效果。

[0055] 还有，本实施例中对第一图片样本进行分割处理时，如图4所示，具体通过如下步骤实现：

[0056] S211、利用第三方目标检测与分割工具对前景进行定位。

[0057] 即利用相应的第三方目标检测与分割工具对相应第一图片样本中的前景进行定位，具体为将其中的前景用矩形框框为前景图片。第三方目标检测与分割工具可以选用MASK-RCNN工具。

[0058] S212、将前景图片从第一图片样本中分割出来。

[0059] 即利用上述MASK-RCNN工具将框处的前景图片从第一图片样本中切割出来，从而得到前景图片和包含切割后形成的空白框。

[0060] S3、利用训练样本集进行模型训练。

[0061] 这里的训练样本集包括上述的所有第一图片样本，还包括根据第一图片样本通过分割-拼接所得到的多个第二图片样本。在得到训练样本集后，利用该训练样本集进行模型训练，从而得到视觉目标检测模型。该视觉目标检测模型用于使机器人对物体进行目标检测，即对物体进行识别和定位，以便进行抓取。

[0062] 这里的模型训练可以是利用该训练样本集对深度神经网络进行训练，从而得到该视觉目标检测模型，也可以是通过其他方式进行模型训练，只要是利用上述的训练样本集进行训练得到该视觉目标检测模型的方法均在本申请的保护范围之内。

[0063] 从上述技术方案可以看出，本实施例提供了一种视觉目标检测模型的训练方法，具体为获取多个第一图片样本，每个第一图片样本包括前景和背景；利用分割-拼接方法对第一图片样本进行处理，得到多个第二图片样本；利用训练样本集进行模型训练，得到视觉目标检测模型，训练样本集包括多个第一图片样本和多个第二图片样本。由于最终进行模型训练所依据的训练样本集中不仅包括人工标注的第一图片样本，还包括通过分割-拼接所得的第二图片样本，从而有效扩展了训练样本集中的样本的数量，进而使最终训练所得的视觉目标检测模型的检测效果得到改善。

[0064] 实施例二

[0065] 图5为本申请实施例提供的一种视觉目标检测模型的训练装置的框图。

[0066] 如图5所示，本实施例提供的训练装置用于训练视觉目标预测模型，核心在于准备用于对模型进行训练所需要的训练样本集，该模型应用于机器人，以便机器人根据该模型对物体进行目标检测，即对物体进行识别和定位，以便对该物体进行抓取，该训练装置具体包括样本获取模块10、图像拼接模块20和模型训练模块30。

[0067] 样本获取模块用于获取多个第一图片样本。

[0068] 第一图片样本中包括人工标注的前景和背景，背景可以认为是该图片样本中面积较大的图像或者说与其中较为突兀的物体相对的图像，例如，草原、天空、大地、沙漠或星空；前景则可以认为是区别与背景的较为突兀的物体，例如草原上的牛羊、天空中飞鸟、大地上的房屋、沙漠上的骆驼或者星空中的月亮。这些背景和前景可以是人工标注的，也可以是通过相应识别工具进行自动检测后标注的。

[0069] 图像拼接模块用于利用分割-拼接方法得到多个第二图片样本。

[0070] 在得到多个包括前景和背景的第一图片样本后，对每个第一图片样本进行分割-拼接处理，即将前景从背景中分割出来，并将前景拼接到其他第一图片样本的背景中，以得到第二图片样本。具体来说，该图像拼接模块包括切割处理单元21和拼接处理单元22，具体如图6所示：

[0071] 切割处理单元用于依次对每个第一图片样本进行切割。

[0072] 通过对第一图片样本的切割，从中将前景从背景中切割出来，从而得到单独的前景图片，并在该前景图片的原处留下空白框。

[0073] 拼接处理单元用于依次将前景图片拼接到其他第一图片样本中。

[0074] 具体是将前景图片拼接到其他第一图片样本因切割所留下的空白框中，从而得到相应的第二图片样本。

[0075] 另外，如图7所示，该图像拼接模块还包括滤波处理单元23。

[0076] 滤波处理单元用于对得到的第二图片样本进行滤波处理。

[0077] 在将前景图片拼接到留有空白框的第一图片样本中后，对其进行滤波处理，从而起到避免锯齿效应干扰的效果。

[0078] 还有，本实施例中切割处理单元还包括前景定位子单元211和前景分割子单元212，具体如图8所示：

[0079] 前景定位子单元用于利用第三方目标检测与分割工具对前景进行定位。

[0080] 即利用相应的第三方目标检测与分割工具对相应第一图片样本中的前景进行定位，具体为将其中的前景用矩形框框为前景图片。第三方目标检测与分割工具可以选用MASK-RCNN工具。

[0081] 前景分割子单元用于将前景图片从第一图片样本中分割出来。

[0082] 即利用上述MASK-RCNN工具将框处的前景图片从第一图片样本中切割出来，从而得到前景图片和包含切割后形成的空白框。

[0083] 模型训练模块用于利用训练样本集进行模型训练。

[0084] 这里的训练样本集包括上述的所有第一图片样本，还包括根据第一图片样本通过分割-拼接所得到的多个第二图片样本。在得到训练样本集后，利用该训练样本集进行模型训练，从而得到视觉目标检测模型。该视觉目标检测模型用于使机器人对物体进行目标检测，即对物体进行识别和定位，以便进行抓取。

[0085] 这里的模型训练可以是利用该训练样本集对深度神经网络进行训练，从而得到该视觉目标检测模型，也可以是通过其他方式进行模型训练，只要是利用上述的训练样本集进行训练得到该视觉目标检测模型的方法均在本申请的保护范围之内。

[0086] 从上述技术方案可以看出，本实施例提供了一种视觉目标检测模型的训练装置，具体为获取多个第一图片样本，每个第一图片样本包括前景和背景；利用分割-拼接方法对第一图片样本进行处理，得到多个第二图片样本；利用训练样本集进行模型训练，得到视觉目标检测模型，训练样本集包括多个第一图片样本和多个第二图片样本。由于最终进行模型训练所依据的训练样本集中不仅包括人工标注的第一图片样本，还包括通过分割-拼接所得的第二图片样本，从而有效扩展了训练样本集中的样本的数量，进而使最终训练所得的视觉目标检测模型的检测效果得到改善。

[0087] 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0088] 本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0089] 本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0090] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0091] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0092] 尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

[0093] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0094] 以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

一种视觉目标检测模型的训练方法和装置转让专利

申请号 : CN201811598106.0

文献号 : CN109685847B

文献日 : 2021-02-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 蔡颖鹏 , 陈希

申请人 : 北京因时机器人科技有限公司

摘要 :

权利要求 :

说明书 :