目标检测方法及设备转让专利
申请号 : CN202111023323.9
文献号 : CN113469146B
文献日 : 2021-12-14
发明人 : 周波 , 段炼 , 苗瑞
申请人 : 深圳市海清视讯科技有限公司
摘要 :
权利要求 :
1.一种目标检测方法,其特征在于,包括:确定待检测图像;
通过多路自编码神经网络对所述待检测图像进行目标检测,得到目标检测结果,所述多路自编码神经网络包括多个分路编码器和多个分路解码器,所述多个分路编码器之间是并列的,所述多个分路解码器之间是并列的;
所述多路自编码神经网络中还包括共享编码模块和共享解码模块,所述共享编码模块位于所述多路自编码网络的输入层与所述多个分路编码器之间,所述共享解码模块位于所述多个分路解码器之后。
2.根据权利要求1所述的目标检测方法,其特征在于,所述通过多路自编码神经网络对所述待检测图像进行目标检测,得到目标检测结果,包括:通过所述多路自编码神经网络中各所述分路编码器对所述待检测图像进行特征编码,得到各所述分路编码器输出的图像特征;
通过所述多路自编码神经网络中各所述分路解码器对来自所述分路编码器的图像特征进行特征解码,得到各所述分路解码器输出的图像特征;
根据各所述分路解码器输出的图像特征,确定所述目标检测结果。
3.根据权利要求2所述的目标检测方法,其特征在于,所述分路编码器的数量与所述分路解码器的数量相同,所述分路编码器与所述分路解码器一一对应;
所述通过所述多路自编码神经网络中各所述分路解码器对来自所述分路编码器的图像特征进行特征解码,得到各所述分路解码器输出的图像特征,包括:针对所述多路自编码神经网络中各所述分路解码器,通过所述分路解码器对来自对应的分路编码器的图像特征进行特征解码,得到所述分路解码器输出的图像特征。
4.根据权利要求2所述的目标检测方法,其特征在于,所述分路编码器的数量与所述分路解码器的数量不同,单个所述分路解码器对应至少一个所述分路编码器;
所述通过所述多路自编码神经网络中各所述分路解码器对来自所述分路编码器的图像特征进行特征解码,得到各所述分路解码器输出的图像特征,包括:针对所述多路自编码神经网络中各所述分路解码器,通过所述分路解码器对来自对应的至少一个分路编码器的图像特征进行特征解码,得到所述分路解码器输出的图像特征。
5.根据权利要求2所述的目标检测方法,其特征在于,所述分路编码器包括多个串联的编码模块,所述分路解码器包括多个串联的解码模块;
所述通过所述多路自编码神经网络中各所述分路编码器对所述待检测图像进行特征编码,得到各所述分路编码器输出的图像特征,包括:针对所述多路自编码神经网络中各所述分路编码器,依次通过所述分路编码器中的多个编码模块对所述待检测图像进行特征编码,得到所述分路编码器中最后一个编码模块输出的图像特征;
所述通过所述多路自编码神经网络中各所述分路解码器对来自所述分路编码器的图像特征进行特征解码,得到各所述分路解码器输出的图像特征,包括:针对所述多路自编码神经网络中各所述分路解码器,依次通过所述分路解码器中的多个解码模块对来自所述分路编码器的图像特征进行特征解码,得到所述分路解码器中最后一个解码模块输出的图像特征。
6.根据权利要求5所述的目标检测方法,其特征在于,所述编码模块包括卷积层和子编码模块,所述子编码模块至少包括激活函数;和/或,所述解码模块包括反卷积层和子解码模块,所述子解码模块至少包括激活函数。
7.根据权利要求1‑6中任一项所述的目标检测方法,其特征在于,不同的所述分路编码器的网络结构不同,不同的所述分路解码器的网络结构不同。
8.根据权利要求1‑6中任一项所述的目标检测方法,其特征在于,不同的所述分路编码器采用的激活函数不同,不同的所述分路解码器采用的激活函数不同。
9.根据权利要求1‑6中任一项所述的目标检测方法,其特征在于,所述目标检测为人头检测,所述通过多路自编码神经网络对所述待检测图像进行目标检测,得到目标检测结果,包括:
通过所述多路自编码神经网络对所述待检测图像进行人头检测,得到置信度响应图,所述置信度响应图中的像素值反映所述待检测图像中的人头区域。
10.根据权利要求1‑6中任一项所述的目标检测方法,其特征在于,所述目标检测为人头检测,所述确定待检测图像,包括:获取深度相机拍摄的场景图像,所述场景图像为车内场景中的深度图像;
根据所述场景图像,得到所述待检测图像。
11.根据权利要求10所述的目标检测方法,其特征在于,所述深度相机包括面阵式激光器,所述面阵式激光器包括面阵式的激光发射器和面阵式的激光接收器,所述深度相机基于所述激光发射器所发射的激光与所述激光接收器所接收的激光之间的相位差生成深度图像。
12.根据权利要求10所述的目标检测方法,其特征在于,在车顶上分布有多个所述深度相机,不同的深度相机的拍摄区域不同。
13.一种目标检测设备,其特征在于,包括:确定模块,用于确定待检测图像;
检测模块,用于通过多路自编码神经网络对所述待检测图像进行目标检测,得到目标检测结果,所述多路自编码神经网络包括多个分路编码器和多个分路解码器,所述多个分路编码器之间是并列的,所述多个分路解码器之间是并列的;
所述多路自编码神经网络中还包括共享编码模块和共享解码模块,所述共享编码模块位于所述多路自编码网络的输入层与所述多个分路编码器之间,所述共享解码模块位于所述多个分路解码器之后。
14.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1‑12中任一项所述的目标检测方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1‑12中任一项所述的目标检测方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包含计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1‑12中任一项所述的目标检测方法。
说明书 :
目标检测方法及设备
技术领域
背景技术
别、跟踪、计数等。其中,目标检测是目标识别、跟踪、计数的基本任务。
与图像背景的差值,在图像中区分出目标。然而,目标检测的场景较为复杂,例如,不同目标
之间的相互遮挡、场景光线变化、目标运动或静止,影响了检测准确性。
发明内容
路解码器中至少一种的数量为多个。
码器和所述分路解码器中至少一种的数量为多个。
方面各种可能的设计所述的目标检测方法。
的设计所述的目标检测方法。
分路编码器和分路解码器中至少一种的数量为多个。从而,基于多路自编码神经网络中多
个分路编码器和/或多个分路解码器这一网络结构,提高了目标检测过程中神经网络学习
图像特征的丰富性、准确性,进而提高了图像中时目标检测的准确性。
附图说明
本领域技术人员说明本公开的概念。
具体实施方式
中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图像采集设备101将拍摄的图像发送至图像处理设备102,图像处理设备102对来自图像采
集设备101的图像进行目标检测。
如,手机、平板电脑、计算机、智能可穿戴设备)或者服务器(单个服务器或者服务器群)。图1
以图像采集设备101为摄像头、以图像处理设备102为服务器为例。
式费时费力,且乘客位置移动后容易出现漏检;人员计数的另一种方式是,利用可见光的当
前帧图像和参考帧图像之间的数据差异来识别目标,该方式在一些光照均匀、人群不断移
动的闸口通道的检测准确性较好,但在光照变化较大、人员大多静止的车厢场景的检测准
确性较低;人员计数的又一种方式是,利用卷积乘积网络进行目标检测,然而,该方式受复
杂场景下的光照、人头遮挡的影响,依旧存在人头检测误报、漏检的现象。
测,利用多路自编码神经网络中的多个分路编码器和/或多个分路解码器这一网络结构,提
高多路自编码神经网络的图像特征处理能力,进而提高了目标检测的准确性。
称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个
人电脑(personal computer,简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、
以及智能家居设备(例如智能显示设备)等。其中,服务器可以为单个服务器,也可以为服务
器群,服务器群例如集中式服务器、分布式服务器,还可以为云服务器。
或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
像。或者,可从存储有图像和/或视频的数据库中,读取待检测图像。
个分路解码器;或者,多路自编码神经网络可包括一个分路编码器和多个分路解码器;或
者,多路自编码神经网络可包括多个分路编码器和多个分路解码器。
网络包括多个分路解码器时,多个分路解码器之间是并列的,换句话说,多个分路解码器是
相互独立的,互不干扰地进行特征解码。如此,通过在多路自编码神经网络中设置多个分路
编码器和/或多个分路解码器的方式,学习待检测图像上不同尺度、不同方面的与目标有关
的图像特征,提高了与目标有关的图像特征的丰富性,进而提高了多路自编码神经网络的
模型精度、泛化能力和鲁棒性,提高了目标检测的准确性。
多路自编码神经网络的输入层。接着,在多路自编码神经网络中,通过分路编码器对待检测
图像进行特征编码,再通过分路解码器对待检测图像进行特征解码,结合一个或多个分路
解码器解码后的特征,由输出层输出最终的目标检测结果。
可以基于目标检测结果进行目标计数,以提高目标计数的准确性。
的训练过程与利用多路自编码神经网络对待检测图像进行目标检测的过程,可以在同一设
备上进行,也可以在不同的设备上进行。在此,对多路自编码神经网络的训练不做限定。
提高了多路自编码神经网络学习到的与目标相关的图像特征的丰富性,进而,提高了多路
自编码神经网络的模型精度、泛化能力和鲁棒性,提高了基于多路自编码神经网络进行目
标检测的检测准确性,有效减少目标漏检、误检情况的发生。尤其地,该目标检测方法不依
赖于运动侦测,即无需利用处于运动状态的目标与图像背景的差值来区分出图像中的目
标,可以有效地适应于静态场景下的目标检测,提高静态场景下的目标检测准确性。
化处理后的灰度图进行尺寸调整,使其满足多路自编码神经网络要求的输入图像尺寸。其
中,对灰度图进行归一化处理例如将灰度图上的各像素值除以255。
~
图像进行尺寸调整,使其满足多路自编码神经网络要求的输入图像尺寸。其中,对深度图像
进行归一化处理例如将深度图像上的各个像素值除以待检测图像上的最大像素值。
域,从而,通过多路自编码神经网络检测得到待检测图像中目标的置信响应图,得到目标在
待检测图像中所在的图像区域,完成目标检测任务。
结构的分路编码器和/或不同网络结构的分路解码器,学习待检测图像中与目标相关的不
同特征,提高特征提取的丰富性。其中,与目标相关的不同特征包括待检测图像中与目标相
关的不同尺度的特征和/或不同方面的特征。
分路解码器采用的激活函数不同。从而,通过在不同的分路编码器中设置不同的激活函数
的方式,为不同的分路编码器引入不同的非线性因素,和/或,通过在不同的分路解码器中
设置不同的激活函数的方式,为不同的分路解码器引入不同的非线性因素,进而,使得不同
的分路编码器和/或不同的分路解码器可以学习待检测图像中与目标有关的不同特征。
层,直接或者经过一个或多个网络层处理后,分别输入各分路编码器进行特征编码,得到各
分路编码器输出的图像特征。参考图4,图4为本公开实施例提供的多路自编码神经网络的
结构示意图,如图4所示,待处理图像输入多路自编码神经网络的输入层后,经过0个或多个
网络层后,分别进入N个分路编码器中进行特征编码,其中,N大于1。
图像特征进行解码。换句话说,针对各分路解码器,分路解码器对来自一个或多个分路编码
器的图像特征进行编码处理。如此,得到各分路编码器输出的图像特征。
多路自编码神经网络中的各分路编码器,通过分路编码器对来自对应的分路编码器的图像
特征进行特征解码,得到分路解码器输出的图像特征。如图4所示,在多路自编码神经网络
中,N个分路编码器和N个分路解码器一一对应连接,第i个分路编码器输出的图像特征为第
i个分路解码器的输入,其中,i的取值范围为1 N。N个分路解码器输出的图像特征再经过0
~
个或多个网络层后由输出层输出目标检测结果。从而,可以通过任意N路编解码的组合方式
得到的多路自编码神经网络,提高提取特征的丰富性,提高目标检测的准确性。
例提供的双路自编码神经网络的结构示意图,如图5所示,多路自编码神经网络包括2个分
路编码器(图5中的分路编码器A和分路编码器B)和2个分路解码器(图5中的分路解码器A和
分路解码器B),且分路编码器与分路解码器一一对应连接(在图5中,分路编码器A输出的图
像特征为分路解码器A的输入,分路编码器B输出的图像特征为分路解码器B的输入)。
括:针对多路自编码神经网络中的各分路编码器,通过分路编码器对来自对应的至少一个
分路编码器的图像特征进行特征解码,得到分路解码器输出的图像特征。其中,在分路编码
器的数量大于分路解码器的数量时,多个分路编码器输出的图像特征可以输入同一个分路
解码器中进行特征解码;在分路编码器的数量小于分路解码器的数量时,同一个分路解码
器输出的图像特征可以输入不同的分路解码器中进行特征解码。从而,可以通过任意X路编
码Y路解码(X不等于Y)的组合方式得到的多路自编码神经网络,提高提取特征的丰富性,提
高目标检测的准确性。
编码器,依次通过分路编码器中的多个编码模块对待检测图像进行特征编码,得到分路编
码器中最后一个编码模块输出的图像特征。S303的一种可能的实现方式包括:针对多路自
编码神经网络中各分路解码器,依次通过分路解码器中的多个解码模块对来自分路编码器
的图像特征进行特征解码,得到分路解码器中最后一个解码模块输出的图像特征。从而,通
过网络结构模块化的方式,提高分路编码器和分路解码器的结构灵活性,可以为分路编码
器设计相同或不同的编码模块,为分路解码器设置相同或不同的解码模块,尤其地,能够适
应于不同的应用场景设计不同的编码模块、不同的解码模块,例如,用于车厢环境中人头检
测的编码模块、解码模块与用于教室场景中人头检测的编码模块、解码模块不同。
块A1 A5,分路编码器B包括编码模块B1 B5,分路解码器A包括解码模块A1 A5,分路解码器B
~ ~ ~
包括解码模块B1 B5。其中,分路编码器A中的各编码模块可相同或不同,分路编码器B中的
~
各编码模块可相同或不同,分路解码器A中的各解码模块可相同或不同,分路解码器B中的
各解码模块可相同或不同。
置一个或多个子编码模块,可为不同的编码模块设置相同或不同的子编码模块。另一方面,
在解码模块中通过反卷积层和子解码模块实现解码功能的同时,通过子解码模块提高解码
模块结构的灵活性,解码模块结构的灵活性包括:可在解码模块中设置一个或多个子解码
模块,可为不同的解码模块设置相同或不同的子解码模块。
爆炸和梯度消息,防止过拟合,提高多路自编码神经网络的目标检测准确性。
征进行批量规范化处理;接着,将批量规范化处理后的图像特征输入子编码模块,进行特征
编码;再将编码后的图像特征依次输入下一个卷积层和下一个BN网络层进行处理。最后,可
将该BN网络层输出的图像特征中的各像素值与上一BN网络层输出的图像特征中的各像素
值进行一一相加,得到编码模块输出的图像特征。
add层。
add层。
subA1、编码模块Bi中可堆叠k个subB1,k大于或等于1,add层表示将两个BN网络层输出的图
像特征按像素相加。
通道进行卷积,PWconv将图像特征逐点进行卷积。从而,结合DWconv与PWconv,降低卷积运
算的计算量,并提高卷积层所提取的特征的准确性。
见,相对于图6中的结构一,结构二将结构一中的conv替换为DWconv+PWconv。
见,相对于图7中的结构一,结构二将结构一中的conv替换为DWconv+PWconv。
构二,例如,编码模块A1采用结构一,编码模块A2采用结构二,或者,编码模块A1和编码模块
A2都采用结构一或者都采用结构二。同样的,图5中的分路编码器B中的编码模块B1 B5可以
~
采用图7中的结构一和/或结构二。
标相关的不同图像特征,提高多路自编码神经网络提取图像特征的丰富性。
1)、PWconv(3*3,s=1)、BN网络层、swish激活函数。
1)、PWconv(3*3,s=1)、BN网络层、Tanh激活函数。
自编码神经网络的目标检测准确性。
上采样;接着,通过BN网络层,对卷积层输出的图像特征进行批量规范化处理;接着,将批量
规范化处理后的图像特征输入子解码模块,继续进行特征解码;再将解码后的图像特征依
次输入卷积层和下一个BN网络层进行处理。最后,可将该BN网络层输出的图像特征中的各
像素值与上一BN网络层输出的图像特征中的各像素值进行一一相加,得到编码模块输出的
图像特征。
BN网络层、add层。
BN网络层、add层。
或等于1,add层表示将两个BN网络层输出的图像特征按像素相加。
PWconv,降低反卷积运算的计算量,并提高反卷积层所提取的特征的准确性。
层。可见,在图10中,结构二将结构一中的deconv和conv均替换为DWconv+PWconv。
层。可见,在图11中,结构二将结构一中的deconv均替换为DWconv+PWconv。
subB2。其中,图5中的分路解码器A中的解码模块A1 A5可以采用图10中的结构一和/或结构
~
二,例如,解码模块A1采用结构一,解码模块A2采用结构二,或者,解码模块A1和解码模块A2
都采用结构一或者都采用结构二。同样的,图5中的分路解码器B中的解码模块B1 B5可以采
~
用图11中的结构一和/或结构二。
标相关的不同图像特征,提高多路自编码神经网络提取图像特征的丰富性。例如,图10中
desubA1、desubA2的激活函数与图11中desubB1、desubB2的激活函数不同。
DWconv(3*3,s=1)、PWconv(3*3,s=1)、BN网络层、Tanh激活函数。
DWconv(3*3,s=1)、PWconv(3*3,s=1)、BN网络层、Tanh激活函数。
进行处理,并将处理后的图像特征分别输出到各个分路编码器中。其中,共享解码模块位于
多个分路解码器之后,用于接收多个分路解码器输出的图像特征,对这些图像特征再进行
统一的特征解码,得到多路自编码神经网络的输出。从而,通过共享编码模块,使得进入各
个分路编码器的图像特征相同,有利于不同分路编码器进一步提取不同的图像特征,通过
共享解码模块,对各个分路编码器输出的图像特征进行汇总,得到基于丰富的图像特征得
到的目标检测结果,提高目标检测结果的准确性。
中,第二共享解码模块也是输出层。
激活函数采用sigmoid函数。
像中的人头区域。从而,利用多路自编码神经网络,提高人头检测的准确性。
深度图像,得到待检测图像。其中,该方式具有以下优点:1)深度相机拍摄得到的深度图像
不受可见光的干扰,有利于提高人头检测的准确性;2)深度图像只包含三维深度数据,有利
于保护车内乘客的隐私;3)基于深度图像和前述多路自编码神经网络,实现车内这一静态
场景(乘客通常坐在座位上)下的人头检测,提高静态场景下的人头检测准确性。
器发射的激光与该激光接收器接收的激光之间的相位差,计算深度相机到目标的距离,进
而生成深度图像。除面阵式激光器5之外,如图14所示,深度相机还包括固定螺丝1、后盖2、
激光镜头摄像板3、激光散热器4、主机板6、外壳7、玻璃防护板8、窄带滤光器9、复位按钮10。
间接TOF计算深度相机到目标的距离的公式为: 。d为深度相机
到目标的距离,c为光速, 为相位变化,f为调制频率,t为激光发射和接收的时间差。
神经网络,提高车内场景中人头检测的效率和准确性,还能够保护车内乘客隐私。
路解码器中至少一种的数量为多个。
自编码神经网络中各分路解码器对来自分路编码器的图像特征进行特征解码,得到各分路
解码器输出的图像特征;根据各分路解码器输出的图像特征,确定目标检测结果。
解码器,通过分路解码器对来自对应的分路编码器的图像特征进行特征解码,得到分路解
码器输出的图像特征。
各分路解码器,通过分路解码器对来自对应的至少一个分路编码器的图像特征进行特征解
码,得到分路解码器输出的图像特征。
器,依次通过分路编码器中的多个编码模块对待检测图像进行特征编码,得到分路编码器
中最后一个编码模块输出的图像特征;针对多路自编码神经网络中各分路解码器,依次通
过分路解码器中的多个解码模块对来自分路编码器的图像特征进行特征解码,得到分路解
码器中最后一个解码模块输出的图像特征。
数。
素值反映待检测图像中的人头区域。
像。
收器所接收的激光之间的相位差生成深度图像。
1601执行计算机程序时实现如上述任一实施例的方法。
RAM),也可能还包括非易失性存储器(non‑volatile memory),例如至少一个磁盘存储器。
法。
序,所述至少一个处理器执行所述计算机程序时可实现上述任一实施例的目标检测方法。
多个处理器,以及由存储器1702所代表的存储器资源,用于存储可由处理组件1701的执行
的指令,例如应用程序。存储器1702中存储的应用程序可以包括一个或一个以上的每一个
对应于一组指令的模块。此外,处理组件1701被配置为执行指令,以执行上述任一实施例的
方法。
1705。装置1700可以操作基于存储在存储器1702的操作系统,例如Windows ServerTM,Mac
OS XTM,UnixTM, LinuxTM,FreeBSDTM或类似。
独存在A,同时存在A和B,单独存在B的情况,其中,A,B可以是单数或者复数。字符“/”一般表
示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”
的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或
复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a‑b,a‑c,b‑c,
或a‑b‑c,其中,a,b,c可以是单个,也可以是多个。
施过程构成任何限定。
者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识
或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的
权利要求书指出。
制。