一种基于算法融合的目标检测方法、设备及介质转让专利

申请号 : CN202111365381.X

文献号 : CN113807328B

文献日 : 2022-03-18

本发明公开了一种基于算法融合的目标检测方法、设备及介质，主要涉及目标检测技术领域，用以解决现有的目标检测算法对报警目标的误报率较高以及检测小目标准确率低等的技术问题。方法包括：服务器获取待测图片，输入至第一神经网络模型，以获得待测图片对应的若干目标类型；当不存在目标类型为预设报警类型时，输入待测图片至背景建模模型，以获得待测图片对应的动态目标数据；对动态目标数据进行预处理，以获得有效目标数据；输入有效目标数据至第二神经网络模型，以获得有效目标数据对应的目标类型；当存在目标类型为预设报警类型时，进行报警处理。本发明通过上述方法实现了对目标的分类，提高了小目标检测的准确性，降低了目标误报率。

1.一种基于算法融合的目标检测方法，其特征在于，所述方法包括：服务器获取待测图片，输入至第一神经网络模型，以获得所述待测图片对应的若干目标类型；具体包括：

所述第一神经网络模型获取待测图片；通过对待测图片进行4倍、8倍、16倍和32倍下采样处理，获取若干目标抠图；确定各个所述目标抠图对应的目标类型，并发送目标类型至服务器；

当所述目标类型中不包括预设报警类型时，所述服务器输入待测图片至背景建模模型，以获得待测图片对应的动态目标数据；具体包括：把待测图片输入至背景建模模型；确定待测图片中的待选目标数据，其中所述待选目标数据包含待选目标抠图、目标抠图位置、目标抠图像素和目标抠图长宽；获取预存的参考目标数据；其中，参考目标数据包含参考目标抠图、参考抠图位置、参考抠图像素和参考抠图长宽；背景建模模型根据参考目标数据，确定待选目标数据对应的抠图位置相似度、抠图像素相似度和抠图长宽相似度的相似度平均值；背景建模模型确定所述相似度平均值大于预设相似度的待选目标数据为动态目标数据，并发送动态目标数据至服务器；

服务器对所述动态目标数据进行预处理，以获得有效目标数据；具体包括：服务器获取待测图片对应的全部动态目标数据，以确定所述目标抠图像素小于预设像素值的动态目标数据的检测数量；当所述检测数量大于预设数量阈值时，删除全部目标抠图像素小于所述预设像素值的动态目标数据，确定其他动态目标数据为有效目标数据；当检测数量小于或等于所述预设数量阈值时，确定全部动态目标数据为有效目标数据；

服务器输入所述有效目标数据至第二神经网络模型，以获得有效目标数据对应的目标类型；

当目标类型中包括所述预设报警类型时，服务器进行报警处理。

2.根据权利要求1所述的基于算法融合的目标检测方法，其特征在于，在输入待测图片至背景建模模型之前，方法还包括：服务器基于待测图片，确定若干参考图片；

输入所述参考图片至所述背景建模模型，以更新背景建模模型中的参考目标数据。

3.根据权利要求1所述的基于算法融合的目标检测方法，其特征在于，所述服务器获取待测图片，具体包括：

服务器通过预设的图片采集模块，获取任一场景下任意时间段内的若干图片为待测图片；

和/或，服务器通过预设的视频采集模块，获取任一场景下任意时间段内的视频片段，进而获取所述视频片段对应的待测图片。

4.根据权利要求1所述的基于算法融合的目标检测方法，其特征在于，所述服务器进行报警处理，具体包括：

服务器获取进行报警处理的时间段，以记录在历史报警记录表中；

当服务器检测到任一时间段对应的报警处理次数大于预设报警阈值时，生成派遣任务，并发送至服务器对应的巡检终端。

5.根据权利要求1所述的基于算法融合的目标检测方法，其特征在于，方法还包括：当满足预设更新条件时，服务器根据当前获取的待测图片生成训练样本，对第一神经网络模型和/或所述第二神经网络模型进行更新；

其中，所述满足预设更新条件，具体包括以下任意一项或多项：服务器检测到第一神经网络模型和/或第二神经网络模型的工作时间，达到预设更新时间；

服务器检测到第一神经网络模型和/或第二神经网络模型的报警准确率，低于预设准确阈值。

6.一种基于算法融合的目标检测设备，其特征在于，所述设备包括：处理器；

以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1‑5任一项所述的一种基于算法融合的目标检测方法。

7.一种非易失性计算机存储介质，其特征在于，其上存储有计算机指令，所述计算机指令在被执行时实现如权利要求1‑5任一项所述的一种基于算法融合的目标检测方法。

一种基于算法融合的目标检测方法、设备及介质

技术领域

[0001] 本发明涉及目标检测技术领域，尤其涉及一种基于算法融合的目标检测方法、设备及介质。

背景技术

[0002] 人车报警装置在大视野下对100m‑3km范围内的人，车目标进行检测，在大视野下，既要对近距离目标相对较大的人车进行检测，又要对远处非常小的目标（10像素甚至更小）
进行检测，同时现场还有大量的牛羊。在一些边防场景里，还对检测的准确率和误报率有严
格的要求，尤其是漏报率，这对大视野环境下的目标检测提出了很高的要求。

[0003] 现有的，人车报警装置中的目标检测模块，主要采用背景建模算法进行运动目标检测或者采用深度学习进行目标检测。

[0004] 但是，采用背景建模进行目标检测的算法容易受到环境的影响（如草木的抖动、云影的移动以及动物的徘徊），不能实现高效的检测人、车，容易造成误报率较高的情况。而纯
粹基于深度学习的目标检测算法也存在小目标检测准确率低，漏报率高，极小的目标（8*8
像素以下）无法检测出来等问题。

发明内容

[0005] 针对现有技术的上述不足，本发明实施例提供了一种基于算法融合的目标检测方法、设备及介质，用以解决上述技术问题。

[0006] 第一方面，本发明实施例提供了一种基于算法融合的目标检测方法，方法包括：服务器获取待测图片，输入至第一神经网络模型，以获得待测图片对应的若干目标类型；当不
存在目标类型为预设报警类型时，服务器输入待测图片至背景建模模型，以获得待测图片
对应的动态目标数据；服务器对动态目标数据进行预处理，以获得有效目标数据；服务器输
入有效目标数据至第二神经网络模型，以获得有效目标数据对应的目标类型；当存在目标
类型为预设报警类型时，服务器进行报警处理。

[0007] 进一步地，第一神经网络模型获取待测图片；通过对待测图片进行4倍、8倍、16倍和32倍下采样处理，获取有效目标的位置信息和分类信息，并发送目标类型至服务器。

[0008] 进一步地，服务器基于待测图片，确定若干参考图片；输入参考图片至背景建模模型，以更新背景建模模型中的参考目标数据。

[0009] 进一步地，背景建模模型获取待测图片；确定待测图片中的待选目标数据，其中待选目标数据包含待选目标抠图、目标抠图位置、目标抠图像素和目标抠图长宽；获取预存的
参考目标数据；其中，参考目标数据包含参考目标抠图、参考抠图位置、参考抠图像素和参
考抠图长宽；背景建模模型根据参考目标数据，确定待选目标数据对应的抠图位置相似度、
抠图像素相似度和抠图长宽相似度的相似度平均值；背景建模模型确定相似度平均值大于
预设相似度的待选目标数据为动态目标数据，并发送动态目标数据至服务器。

[0010] 进一步地，服务器获取待测图片对应的全部动态目标数据，以确定目标抠图像素小于预设像素值的动态目标数据的检测数量；当检测数量大于预设数量阈值时，删除全部
目标抠图像素小于预设像素值的动态目标数据，确定其他动态目标数据为有效目标数据；
当检测数量小于或等于预设数量阈值时，确定全部动态目标数据为有效目标数据。

[0011] 进一步地，服务器通过预设的图片采集模块，获取任一场景下任意时间段内的若干图片为待测图片；和/或，服务器通过预设的视频采集模块，获取任一场景下任意时间段
内的视频片段，进而获取视频片段对应的待测图片。

[0012] 进一步地，服务器获取进行报警处理的时间段，以记录在历史报警记录表中；当服务器检测到任一时间段对应的报警处理次数大于预设报警阈值时，生成派遣任务，并发送
至服务器对应的巡检终端。

[0013] 进一步地，当满足预设更新条件时，服务器根据当前获取的待测图片生成训练样本，对第一神经网络算法和/或第二神经网络算法进行更新；其中，满足预设更新条件，具体
包括以下任意一项或多项：服务器检测到第一神经网络算法和/或第二神经网络算法的工
作时间，达到预设更新时间；服务器检测到第一神经网络算法和/或第二神经网络算法的报
警准确率，低于预设准确阈值。

[0014] 第二方面，本发明实施例提供了一种基于算法融合的目标检测设备，该设备包括处理器、存储器和存储在存储器上的执行指令，执行指令设置成在被处理器执行时能够使
设备执行上述的任一项的目标检测方法。

[0015] 第三方面，本发明实施例提供了一种非易失性计算机存储介质，其上存储有计算机指令，计算机指令执行上述的一种基于算法融合的目标检测方法。

[0016] 本发明的有益效果在于：基于神经网络模型对较大物的体检测效果较好的特点，首先服务器将待测图片输入至第一神经网络模型，通过第一神经网络模型对待测图片进行
分析处理。当服务器通过第一神经网络，确定待测图片中存在预设报警类型时，直接进行报
警处理，避免了运行背景建模模型带来的资源损耗。当服务器通过第一神经网络，确定待测
图片中不存在预设报警类型时，基于神经网络模型对小目标检测准确率低，漏报率高，极小
的目标（8*8像素以下）无法检测出来的特点。服务器将待测图片导入至背景建模模型中，以
通过背景建模模型将具有移动特点的动态目标检测出来，并生成对应的动态目标数据。以
此使服务器获得了包含小目标的图像的动态目标数据，服务器在获得动态目标数据（包含
小目标图像）后，对动态目标数据进行预处理，筛选出有效目标数据。在这里筛选有效目标
数据的依据是，小于预设像素阈值的动态目标数据的检测数量，当检测数量大于预设阈值
时，说明这些小像素的动态目标数据很有可能是牛羊等动物，可以在这里将这些可能为牛
羊的动态目标数据删除。然后服务器将有效目标数据输入至第二神经网络模型，以通过第
二神经网络确定有效目标数据对应的目标类型。当服务器通过第二神经网络，确定待测图
片中存在预设报警类型时，进行报警处理。

附图说明

[0017] 下面参照附图来描述本公开的部分实施例，附图中：

[0018] 图1是本发明具体实施方式的目标检测方法流程图。

[0019] 图2是本发明具体实施方式的目标检测设备的内部结构示意图。

具体实施方式

[0020] 本领域技术人员应当理解的是，下文所描述的实施例仅仅是本公开的优选实施例，并不表示本公开仅能通过该优选实施例实现，该优选实施例仅仅是用于解释本公开的
技术原理，并非用于限制本公开的保护范围。基于本公开提供的优选实施例，本领域普通技
术人员在没有付出创造性劳动的情况下所获得的其他所有实施例，仍应落入到本公开的保
护范围之内。

[0021] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包
括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要
素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。

[0022] 大视野下对100m‑3km范围内的人，车目标进行检测，在这种场景下，既要对近距离目标相对较大的人车进行检测，又要对远处非常小的目标（10像素甚至更小）进行检测，同
时现场还有大量的牛羊。在一些边防场景里，还对检测的准确率和误报率有严格的要求，尤
其是漏报率，这对大视野环境下的目标检测提出了很高的要求。在该背景下的目标检测，存
在以下技术难点：远距离目标较小，形态特征不明显，尤其是人，往往只有在运动的时候才
能发现目标；由于目标比较小，环境复杂，很容易产生误报，大量的误报极大消耗了工作人
员的精力。牛羊导致的误报非常多，严重影响实际使用。

[0023] 传统算法一般采用背景建模进行运动目标检测或者采用深度学习进行目标检测。但基于背景建模的方式，存在以下问题：误报率高。误报来自草木的抖动，云影移动等；牛羊
等家畜误报多。牛羊经常长时间在一片区域徘徊，导致这片区域误报率非常高；背景建模鲁
棒性较差，检测的环境有近距离目标，也有远距离目标，目标的尺寸，运动速度等不同，导致
相同的背景建模参数只对部分场景效果好；限于背景建模算法本身的局限性，无法对检测
到的目标进行分类。只对运动目标进行检测，无法检测静止目标或移动速度较慢的目标。目
标冷热不均匀，很多情况下人只有头或者脚成像清晰，导致只能检测出头或脚的运动目标。

[0024] 基于此，本发明施例提供了一种基于算法融合的目标检测方法，用以解决上述问题。

[0025] 下面通过附图对本发明实施例提出的技术方案进行详细的说明。

[0026] 如图1所示，本发明实施例提供的适配方法，主要包括以下步骤：

[0027] 步骤101、服务器获取待测图片，输入至第一神经网络模型，以获得待测图片对应的若干目标类型。

[0028] 具体地，作为示例一，服务器获取图片采集模块上传的任一场景下任意时间段内的一张或多张拍摄图片，完成获取待测图片。

[0029] 作为示例二，服务器通过获取视频采集模块上传的任一场景下任意时间段内的视频片段，进而获取视频片段对应的一张或多张图片，完成获取待测图片。

[0030] 作为示例三，服务器通过获取图片采集模块上传的任一场景下任意时间段内的一张或多张图片，以及通过获取视频采集模块上传的任一场景下任意时间段内的视频片段对
应的一张或多张图片，完成获取待测图片。

[0031] 在服务器完成获取待测图片后，服务器将待测图片输入至第一神经网络模型中，以获得待测图片对应的若干目标类型。

[0032] 需要说明的是，第一神经网络模型能够获取待测图片中像素较大的人、车、牛等物体，并对该物体进行分类。具体地，第一神经网络模型包含训练好的能够获取较大像素块的
神经网络算法，且神经网络算法不限于深度神经网络算法、卷积神经网络算法以及循环神
经网络算法。目标类型为通过第一神经网络检测出来的目标的类型，如，车辆类型、动物类
型、植物类型等。

[0033] 作为示例，神经网络模型算法预设四个检测头，分别能够对待测图片进行4倍、8倍、16倍和32倍的下采样来提取目标特征。以使在第一神经网络模型获取到待测图片后，能
够对待测图片进行4倍、8倍、16倍和32倍下采样，进而获取到该待测图片对应的若干目标抠
图；具体地，获取若干目标抠图，其中所述目标抠图中包含目标的位置信息和分类信息。由
于第一神经网络模型为完成训练的模型，因此，第一神经网络模型存有目标抠图－目标类
型之间的映射关系，使得该第一神经网络模型能够根据目标抠图确定目标类型。第一神经
网络模型获取完待测图片对应的全部目标类型后，将全部目标类型发送给服务器。

[0034] 至此，服务器完成获得待测图片对应的若干目标类型。

[0035] 步骤102、当不存在目标类型为预设报警类型时，服务器输入待测图片至背景建模模型，以获得待测图片对应的动态目标数据。

[0036] 需要说明的是，预设报警类型可以为任意可行的类型。例如：人物类型、车辆类型等。另外，动态目标数据为通过背景建模模型检测出来的具有位置变换的目标数据。且动态
目标数据至少包含目标抠图、目标抠图位置、目标抠图像素和目标抠图长宽。

[0037] 在服务器将待测图片输入至背景建模模型之前，本发明可以先对背景建模模型进行更新。

[0038] 具体地，服务器从待测图片中选取若干图片；将图片导入背景建模模型中，在步骤101中已知待测图片为同一场景同一时间段内的若干图片，因此，本发明中的待测图片具有
连续性，可以使背景建模模型从待测图片中识别出可移动物体，将可移动物体对应的图像、
位置、像素和长宽作为参考目标数据存储。进而实现对背景建模模型的更新处理。

[0039] 需要说明的是，背景建模模型用于检测若干待测图片中具有位置变化的目标。并生成该目标对应的动态目标数据。且背景建模模型包含背景建模算法，其中，背景建模算法
可以但不限于KNN（K‑Nearest Neighbor）算法，VJ（Viola Jones）算法，HOG（Histogram of
Oriented Gradient）算法和DMP（Dynamic Movement Primitives）算法等。

[0040] 作为示例：服务器将待测图片输入至背景建模模型，在背景建模模型获取到待测图片后，背景建模模型采集待测图片中的待选目标数据；将待选目标数据和参考目标数据
进行对比，计算待选目标数据对应的抠图位置相似度、抠图像素相似度和抠图长宽相似度
的相似度平均值；当背景建模模型检测到相似度平均值小于或等于预设相似度时，背景建
模模型删除待选目标数据；当背景建模模型检测到相似度平均值大于预设相似度时，背景
建模模型将待选目标数据设置为动态目标数据，并将该动态目标数据发送至服务器。需要
说明的是，上述计算物体图像对应的抠图位置相似度、抠图像素相似度和抠图长宽相似度
的相似度平均值的具体过程，可以通过现有的方法或者技术实现，本发明实施例对此不作
限定。

[0041] 基于前文的描述，本领域技术人员能够理解的是，本实施例通过先训练背景建模模型，提高了背景建模模型检测待测图像检测的准确性。通过将相似度平均值的待选目标
数据删除，去除了位置移动不明显的静态物体。使移动的人或车辆尽可能地被保留。

[0042] 步骤103、服务器对动态目标数据进行预处理，以获得有效目标数据。

[0043] 需要说明的是，根据步骤102可知，服务器从背景建模模型中获取的若干动态目标数据其实是可移动的物体的信息，为了滤除可能存在的像素比较小且不易被第二神经网络
模型（具体详见步骤104）识别的羊、牛等。根据羊、牛都是成群集聚的特点，服务器将对若干
动态目标数据进行预处理，去除小的不易被识别的、多个聚集的物体，以获得可能是人或车
的有效目标数据。

[0044] 作为示例，在服务器获取到待测图像对应的若干动态目标数据后，服务器获取若干动态目标数据对应的若干抠图像素，计算若干抠图像素中小于预设像素值的动态目标数
据的检测数量。当检测数量大于预设数量阈值时，服务器确定存在多个小物体集聚的现象，
将删除抠图像素小于预设像素值的动态目标数据，确定其他动态目标数据为有效目标数
据。当检测数量小于或等于预设数量阈值时，服务器确定不存在多个小物体集聚的现象，将
确定全部动态目标数据为有效目标数据。

[0045] 步骤104、服务器输入有效目标数据至第二神经网络模型，以获得有效目标数据对应的目标类型。

[0046] 需要说明的是，第二神经网络模型用于根据有效目标数据，确定该有效目标数据对应的目标类型。

[0047] 具体地，第二神经网络模型包含训练好的能够获取较小像素块的神经网络算法，且神经网络算法不限于深度神经网络算法、卷积神经网络算法以及循环神经网络算法。当
服务器将有效目标数据输入至第二神经网络模型后，由于第二神经网络模型为完成训练的
模型，因此第二神经网络模型存有有效目标数据－目标类型之间的映射关系，使得该第二
神经网络模型能够根据有效目标数据确定目标类型。在第二神经网络模型获取到有效目标
数据对应的目标类型后，发送该目标类型至服务器。

[0048] 步骤105、当服务器确定存在目标类型为预设报警类型时，进行报警处理。

[0049] 其中，报警处理可以是任意可行的处理方式，本领域技术人员可以根据实际情况制定。

[0050] 作为示例，在进行报警处理后，本发明还可以调度巡检人员进行现场处理。具体地，服务器获取进行报警处理的时间段，以记录在历史报警记录表中；当服务器检测到任一
时间段对应的报警处理次数大于预设报警阈值时，生成派遣任务，并发生至服务器对应的
巡检人员的终端。

[0051] 需要说明的是，为了保证目标检测的准确性，本发明还可以对第一神经网络模型以及第二神经网络模型进行更新。

[0052] 作为示例：当服务器检测到第一神经网络模型和/或第二神经网络模型满足预设更新条件时，服务器根据当前获取的待测图片生成训练样本，对第一神经网络模型和/或第
二神经网络模型进行更新；其中，满足预设更新条件，具体包括以下任意一项或多项：服务
器检测到第一神经网络模型和/或第二神经网络模型的工作时间，达到预设更新时间；服务
器检测到第一神经网络模型和/或第二神经网络模型的报警准确率，低于预设准确阈值。

[0053] 除此之外，本发明实施例还提供了一种基于算法融合的目标检测设备，如图2所示，其上存储有可执行指令，在该可执行指令被执行时，实现如上述的一种基于算法融合的
目标检测方法。具体地，服务器端通过总线向存储器发送执行指令，当存储器接收到执行指
令时，通过总线向处理器发送执行信号，以激活处理器。

[0054] 需要说明的是，处理器用于服务器获取待测图片，输入至第一神经网络模型，以获得待测图片对应的若干目标类型；当不存在目标类型为预设报警类型时，服务器输入待测
图片至背景建模模型，以获得待测图片对应的动态目标数据；服务器对动态目标数据进行
预处理，以获得有效目标数据；服务器输入有效目标数据至第二神经网络模型，以获得有效
目标数据对应的目标类型；当存在目标类型为预设报警类型时，服务器进行报警处理。

[0055] 除此之外，本发明实施例还提供了一种非易失性计算机存储介质，其上存储有可执行指令，在该可执行指令被执行时，实现如上述的一种基于算法融合的目标检测方法。

[0056] 至此，已经结合前文的多个实施例描述了本公开的技术方案，但是，本领域技术人员容易理解的是，本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原
理的前提下，本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合，也可
以对相关技术特征作出等同的更改或替换，凡在本公开的技术构思和/或技术原理之内所
做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。

一种基于算法融合的目标检测方法、设备及介质转让专利

申请号 : CN202111365381.X

文献号 : CN113807328B

文献日 : 2022-03-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 周昊 , 侯小叶 , 王卫光 , 孙政 , 田长超

申请人 : 济南和普威视光电技术有限公司

摘要 :

权利要求 :

说明书 :