物体检测的方法、装置、计算机设备及存储介质转让专利

申请号 : CN201910137428.3

文献号 : CN109886208B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨帆

申请人 : 北京达佳互联信息技术有限公司

摘要 :

本公开是关于一种物体检测的方法、装置、计算机设备及存储介质,属于计算机视觉技术领域。所述方法包括:确定目标图像的特征图;确定所述特征图中的多个特征点;对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点;基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别。采用本公开,在进行密集小物体检测时,可以减少物体的遗漏。

权利要求 :

1.一种物体检测的方法,其特征在于,包括:

确定目标图像的特征图;

确定所述特征图中的多个特征点;

对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点,包括:对应每个特征点,确定至少一个初始锚点;在每个初始锚点中确定多个均匀分布的参考点,基于所述每个初始锚点中的参考点,将所述每个初始锚点分别划分为多个锚点,划分得到的每个锚点的中心点为一个参考点,所述划分得到的每个锚点均位于所对应的初始锚点内;

基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别。

2.根据权利要求1所述的方法,其特征在于,所述对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点,还包括:对应每个特征点,基于预设的多个参考点相对于特征点的位置信息,分别确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。

3.根据权利要求1所述的方法,其特征在于,所述确定目标图像的特征图,包括:确定目标图像多个不同尺度的特征图。

4.根据权利要求1所述的方法,其特征在于,所述基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别之后,还包括:显示所述目标图像,基于所述各检测物对应的位置信息和检测物类别,在所述目标图像中对各检测物添加标记。

5.根据权利要求1所述的方法,其特征在于,所述基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别,包括:将确定出的各锚点包含的特征图区域,输入到不同检测物类别对应的检测模型中,得出每个锚点对应不同检测模型的检测结果;

基于每个锚点对应不同检测模型的检测结果,确定所述目标图像中包括的各检测物对应的位置信息和检测物类别。

6.一种物体检测的装置,其特征在于,包括:

确定单元,被配置为确定目标图像的特征图,确定所述特征图中的多个特征点,对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点,其中,所述对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点,包括:对应每个特征点,确定至少一个初始锚点;在每个初始锚点中确定多个均匀分布的参考点,基于所述每个初始锚点中的参考点,将所述每个初始锚点分别划分为多个锚点,划分得到的每个锚点的中心点为一个参考点,所述划分得到的每个锚点均位于所对应的初始锚点内;

检测单元,被配置为基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别。

7.根据权利要求6所述的装置,其特征在于,所述确定单元,还被配置为:对应每个特征点,基于预设的多个参考点相对于特征点的位置信息,分别确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。

8.根据权利要求6所述的装置,其特征在于,所述确定单元,被配置为:确定目标图像多个不同尺度的特征图。

9.根据权利要求6所述的装置,其特征在于,所述装置还包括:标记单元,被配置为显示所述目标图像,基于所述各检测物对应的位置信息和检测物类别,在所述目标图像中对各检测物添加标记。

10.根据权利要求6所述的装置,其特征在于,所述检测单元,被配置为:将确定出的各锚点包含的特征图区域,输入到不同检测物类别对应的检测模型中,得出每个锚点对应不同检测模型的检测结果;

基于每个锚点对应不同检测模型的检测结果,确定所述目标图像中包括的各检测物对应的位置信息和检测物类别。

11.一种计算机设备,其特征在于,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

执行权利要求1-5任一项所述的方法。

12.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行权利要求1-5任一项所述的方法。

说明书 :

物体检测的方法、装置、计算机设备及存储介质

技术领域

[0001] 本公开涉及计算机视觉技术领域,尤其涉及一种物体检测的方法、装置、计算机设备及存储介质。

背景技术

[0002] 物体检测是计算机视觉领域的一个核心问题。物体检测的目标首先是要检测图片中是否包含待检测的物体,并且,如果图片中包含待检测的物体,还需要确定该物体的位置和类型。
[0003] 相关技术中物体检测的方法为:首先,以特征图中的特征点为中心,确定多个锚点。然后,针对每个锚点进行检测,在锚点内存在检测物的情况下,输出检测物的位置信息和检测物类别。
[0004] 一个锚点只能识别出一个物体,当一个特征点对应的多个锚点内包含多个物体时,由于这些锚点的中心点相同,所以这些锚点负责的检测区域有很大的重合,从而针对这些锚点进行检测时,可能只能检测到相同的物体,造成其余物体的遗漏。

发明内容

[0005] 本公开提供了一种物体检测的方法、装置、计算机设备及存储介质,能够解决现有物体检测的方法运用到密集小物体检测时,常常造成物体遗漏的技术问题。
[0006] 根据本公开实施例的第一方面,提供一种物体检测的方法,包括:
[0007] 确定目标图像的特征图;
[0008] 确定所述特征图中的多个特征点;
[0009] 对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点;
[0010] 基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别。
[0011] 可选的,所述对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点,包括:
[0012] 对应每个特征点,确定至少一个初始锚点;
[0013] 在每个初始锚点中确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0014] 可选的,所述在每个初始锚点中确定多个参考点,以每个参考点为中心,分别确定至少一个锚点,包括:
[0015] 在每个初始锚点中确定多个均匀分布的参考点,基于每个初始锚点中的参考点,将每个初始锚点分别划分为多个锚点,划分得到的每个锚点的中心点为一个参考点。
[0016] 可选的,所述对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点,包括:
[0017] 对应每个特征点,基于预设的多个参考点相对于特征点的位置信息,分别确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0018] 可选的,所述确定目标图像的特征图,包括:
[0019] 确定目标图像多个不同尺度的特征图。
[0020] 可选的,所述基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别之后,还包括:
[0021] 显示所述目标图像,基于所述各检测物对应的位置信息和检测物类别,在所述目标图像中对各检测物添加标记。
[0022] 可选的,所述基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别,包括:
[0023] 将确定出的各锚点包含的特征图区域,输入到不同检测物类别对应的检测模型中,得出每个锚点对应不同检测模型的检测结果;
[0024] 基于每个锚点对应不同检测模型的检测结果,确定所述目标图像中包括的各检测物对应的位置信息和检测物类别。
[0025] 根据本公开实施例的第二方面,提供一种物体检测的装置,包括
[0026] 确定单元,被配置为确定目标图像的特征图,确定所述特征图中的多个特征点,对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点;
[0027] 检测单元,被配置为基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别。
[0028] 可选的,所述确定单元,被配置为:
[0029] 对应每个特征点,确定至少一个初始锚点;
[0030] 在每个初始锚点中确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0031] 可选的,所述确定单元,被配置为:
[0032] 在每个初始锚点中确定多个均匀分布的参考点,基于每个初始锚点中的参考点,将每个初始锚点分别划分为多个锚点,划分得到的每个锚点的中心点为一个参考点。
[0033] 可选的,所述确定单元,被配置为:
[0034] 对应每个特征点,基于预设的多个参考点相对于特征点的位置信息,分别确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0035] 可选的,所述确定单元,被配置为:
[0036] 确定目标图像多个不同尺度的特征图。
[0037] 可选的,所述装置还包括:
[0038] 标记单元,被配置为显示所述目标图像,基于所述各检测物对应的位置信息和检测物类别,在所述目标图像中对各检测物添加标记。
[0039] 可选的,所述检测单元,被配置为:
[0040] 将确定出的各锚点包含的特征图区域,输入到不同检测物类别对应的检测模型中,得出每个锚点对应不同检测模型的检测结果;
[0041] 基于每个锚点对应不同检测模型的检测结果,确定所述目标图像中包括的各检测物对应的位置信息和检测物类别。
[0042] 根据本公开实施例的第三方面,提供了一种计算机设备,包括:
[0043] 处理器;
[0044] 用于存储处理器可执行指令的存储器;
[0045] 其中,所述处理器被配置为:
[0046] 执行本公开实施例的第一方面所述的方法。
[0047] 根据本公开实施例的第四方面,提供了一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行本公开实施例第一方面所述的方法。
[0048] 根据本公开实施例的第五方面,提供了一种应用程序,包括一条或多条指令,该一条或多条指令可以由服务器的处理器执行,以完成本公开实施例的第一方面所述的方法。
[0049] 本公开的实施例提供的技术方案可以包括以下有益效果:
[0050] 本公开实施例中,首先基于每个特征点确定多个参考点,然后,以每个参考点为中心生成至少一个锚点。从而使得每个特征点对应多个不共中心的锚点。
[0051] 与相关技术中的技术方案相比,由于每个特征点对应多个中心不一样的锚点,从而使得不同位置的锚点负责各自区域的物体检测,不同位置的锚点负责的检测区域的重合较少,从而当本公开实施例提供的方法,运用到密集小物体的检测时,物体的遗漏较少。
[0052] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

[0053] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0054] 图1是根据一示例性实施例示出的一种物体检测的方法的流程图。
[0055] 图2是根据一示例性实施例示出的一种物体检测的装置的框图。
[0056] 图3是根据一示例性实施例示出的一种终端的结构框图。
[0057] 图4是根据一示例性实施例示出的一种计算机设备的结构框图。
[0058] 图5是根据一示例性实施例示出的目标图像的特征图。
[0059] 图6是根据一示例性实施例示出的包含锚点的特征图。
[0060] 图7是根据一示例性实施例示出的包含锚点的特征图。

具体实施方式

[0061] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0062] 本公开实施例提供了一种物体检测的方法,该方法可以由计算机设备实现。其中,该计算机设备可以是手机、平板电脑、笔记本和监控设备等移动终端,也可以是台式计算机等固定终端,也可以是服务器。
[0063] 本公开实施例提供的方法可以应用于对图像进行物体检测的场景中,例如,可以应用于智能化交通系统、智能监控系统、军事目标检测和医学导航手术等场景中。而且,本公开实施例提供的方法,尤其适用于对其中存在多个小物体的图像进行检测和识别的场景中,如在大合照中的人脸检测、公共场所中的密集人头检测和对鱼群的密度进行估计的场景中。
[0064] 图1是根据一示例性实施例示出的一种物体检测的方法的流程图,如图1所示,该方法用于计算机设备中,包括以下步骤。
[0065] 在步骤101中,确定目标图像的特征图。
[0066] 其中,目标图像是指要进行物体检测的图像。
[0067] 在实施中,确定目标图像的特征图之前,还需要获取目标图像。目标图像可以通过实时采集的方式获取,这种方式主要应用于监控设备等计算机设备中,监控设备实时采集监控视频,并且持续获取监控视频中的图像帧作为目标图像。目标图像也可以通过提取预先存储在计算机设备中的图像资料或视频资料的方式获取。
[0068] 获取目标图像后,可以将目标图像输入到神经网络模型中,生成特征图。本实施方式中的神经网络模型可以是CNN(Convolutional Neural Network,卷积神经网络)模型,也可以是VGG(Visual Geometry Group,视觉几何组)模型。进一步的,为了减少计算量,可以先对目标图像进行缩放,再将缩放后的目标图像输入到神经网络模型中进行物体检测。
[0069] 神经网络模型中包括多级卷积层,目标图像输入到神经网络模型之后,神经网络模型即会通过一级一级的卷积层对目标图像依次进行卷积处理,并会依次得到各级卷积层的特征图。选取各级卷积层的特征图中的一个确定为目标图像的特征图。
[0070] 对于从监控视频中持续获取图像帧作为目标图像的情况,每获取一目标图像,就将该目标图像输入到神经网络模型中,从而,得出各目标图像对应的特征图。
[0071] 可选的,为了使得物体检测的结果更加精确,可以使用目标图像不同尺度的特征图进行物体检测,使不同尺度的特征度分别负责不同尺寸的物体的检测,相应的处理过程可以如下:确定目标图像多个不同尺度的特征图。
[0072] 在实施中,神经网络模型中包括多级卷积层,目标图像输入到神经网络模型之后,即会通过一级一级的卷积层对目标图像依次进行卷积处理,并会依次得到各级卷积层的特征图。其中,卷积层数靠前的卷积层对应的特征图的尺度较大,比较适合用于检测尺寸较小的物体。卷积层数靠后的卷积层对应的特征图的尺度较小,比较适合用于检测尺寸较大的物体。
[0073] 从各级卷积层对应的特征图中,选取多个不同尺度的特征图,确定为目标图像的特征图,使不同尺度的特征图分别负责不同尺寸的物体的检测,从而,提高物体检测的准确率。
[0074] 具体的操作方法可以为:首先将目标图像输入到vgg16神经网络模型中,然后利用ssd(single shot multibox detector,单点多框探测器)框架,提取conv3_3,conv4_3和conv5_3三层特征图,作为目标图像的特征图,以便提高物体检测的准确率。
[0075] 在步骤102中,确定特征图中的多个特征点。
[0076] 在步骤103中,对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点。
[0077] 其中,锚点还可以称为预选框和anchor等。
[0078] 在实施中,每个特征点可以对应n个参考点,每个参考点对应有m个锚点,假设特征点的数目为p,则该特征图中共确定了p×m×n个锚点,这些锚点将特征图分割成p×m×n个特征图区域。
[0079] 本公开实施例中,首先基于每个特征点确定多个参考点,然后,以每个参考点为中心生成至少一个锚点。从而使得每个特征点对应多个不共中心的锚点。
[0080] 与相关技术中的技术方案相比,由于每个特征点对应多个中心不一样的锚点,从而使得不同位置的锚点负责各自区域的物体检测,不同位置的锚点负责的检测区域的重合较少,从而当本公开实施例提供的方法,运用到密集小物体的检测时,物体的遗漏较少。
[0081] 可选的,可以通过预先生成初始锚点,然后将这个初始锚点划分的方式来生成锚点,相应的处理过程可以如下:对应每个特征点,确定至少一个初始锚点;在每个初始锚点中确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0082] 在实施中,对应每个特征点,首先确定至少一个初始锚点中心点,然后以每个初始锚点中心点为中心,生成至少一个初始锚点。生成初始锚点时,还需要设计初始锚点的尺度信息和比例信息,其中,尺度信息表征初始锚点的面积的大小,比例信息表征初始锚点的长宽比(可以以初始锚点在水平方向上的尺寸为长度,以初始锚点在竖直方向上的尺寸为宽度)。基于初始锚点中心点、初始锚点的尺度信息和比例信息可以生成多个初始锚点。例如,可以将特征点的中心确定为初始锚点的中心点,设定初始锚点的面积为1,长宽比为1:1,如图6所示。
[0083] 生成初始锚点之后,需要在初始锚点内选取多个参考点。选取参考点时,可以以初始锚点的四个顶点或初始锚点的中心点为原点,以水平方向为x轴,以竖直方向为y轴,来确定各个参考点的坐标。
[0084] 确定参考点后,以这些参考点为中心,并设计锚点的面积和长宽比(可以以锚点在水平方向上的尺寸为长度,以锚点在竖直方向上的尺寸为宽度),分别确定至少一个锚点。
[0085] 可选的,可以将每个初始锚点均匀的划分成几个锚点,相应的处理过程可以如下:在每个初始锚点中确定多个均匀分布的参考点,基于每个初始锚点中的参考点,将每个初始锚点分别划分为多个锚点,划分得到的每个锚点的中心点为一个参考点。
[0086] 在实施中,生成初始锚点之后,在初始锚点中均匀的确定几个参考点,然后以这几个参考点为中心,分别确定一个锚点。假设一个初始锚点中确定的参考点的数目为k,则一个初始锚点划分成k个锚点,且该k个锚点形状完全相同,每个锚点的面积为初始锚点面积的1/k。
[0087] 例如,如图6所示,将每个特征点的中心确定为初始锚点中心点,然后以每个初始锚点中心点为中心,生成一个初始锚点。该初始锚点的尺度为1,长宽比为1。也即每个特征点对应一个初始锚点,该初始锚点为一个面积为1的正方形框体。在该初始锚点中,均匀的选择了四个参考点,以初始锚点的左上角为原点,以水平方向为x轴,且向右为x轴正方向,以竖直方向为y轴,且向下为y轴正方向,这四个参考点的坐标分别为(0.25,0.25)、(0.25、0.75)、(0.75、0.25)和(0.75,0.75)。以这四个参考点为中心,将初始锚点划分为4个大小相等,面积为0.25的正方形锚点。
[0088] 可选的,可以直接确定多个参考点,然后以这些参考点为中心,分别确定至少一个锚点,相应的处理过程可以如下:对应每个特征点,基于预设的多个参考点相对于特征点的位置信息,分别确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0089] 在实施中,可以先预设参考点相对于特征点的位置信息,然后,基于这些位置信息确定多个参考点。
[0090] 可以以每个特征点的中心为原点,以水平方向为x轴,且向右为x轴正方向,以竖直方向为y轴,且向下为y轴正方向,来确定参考点的坐标。例如,如图7所示,确定参考点的坐标为(0.25,-0.25)、(-0.25,0.25)(-0.25,-0.25)和(0.25,0.25),则该参考点位于与其对应的特征点的四周,且均在水平方向上距该特征点为0.25,在竖直方向上距该特征点为0.25。
[0091] 确定参考点后,设计锚点的面积信息和比例信息,可以预设锚点的面积为0.25,长宽比为1:1,则一个参考点对应一个锚点,如图7所示。
[0092] 还可以预设多个不同面积和不同长宽比的锚点,来增加锚点的数量。例如,设计锚点的面积有1和2两种,长宽比有1:2和2:1两种,则一个参考点对应四个锚点,即一个面积为1且长宽比为1:2的锚点、一个面积为1且长宽比为2:1的锚点、一个面积为2且长宽比为1:2的锚点和一个面积为2且长宽比为2:1的锚点。
[0093] 在步骤104中,基于确定出的各锚点,对特征图进行物体检测,得到目标图像中包括的各检测物对应的位置信息和检测物类别。
[0094] 在实施中,确定出的各锚点将特征图分割成多个不同的特征图区域,特征图区域的数量与确定出的锚点的数量相同。
[0095] 依次对各锚点内包含的特征图区域进行检测,基于每个特征图区域得到一个检测结果。每个检测结果包含有各特征图区域包含的检测物对应的位置信息和检测物类别。然后,对所有的检测结果进行整合和处理,最终得到目标图像中包括的各检测物对应的位置信息和检测物类别。
[0096] 可选的,可以将确定出的各锚点包含的特征图区域,用不同的检测模型进行检测,相应的处理过程可以如下:将确定出的各锚点包含的特征图区域,输入到不同检测物类别对应的检测模型中,得出每个锚点对应不同检测模型的检测结果;基于每个锚点对应不同检测模型的检测结果,确定目标图像中包括的各检测物对应的位置信息和检测物类别。
[0097] 其中,不同类别检测模型负责不同类别物体的检测,检测模型可以为分类器。
[0098] 在实施中,将所有的锚点确定出的特征图区域,依次输入到不同类别的检测模型中,每种检测模型对每个锚点内包含的特征图区域进行检测,每种检测模型对于每个特征区域得出一个检测结果,该检测结果中包含着,属于本检测模型对应的物体类别的检测物的位置信息,如果该特征图区域没有包含属于本检测模型对应的物体类别的检测物,则该位置信息为空信息。然后,每类检测模型基于所有特征图区域的检测结果,对位置信息进行去重处理。
[0099] 最后,根据所有分类模型得出的检测结果,得到目标图像中包括的各检测物对应的位置信息和检测物类别。
[0100] 可选的,当确定目标图像中包括的各检测物对应的位置信息和检测物类别之后,可以在目标图像中将检测到的检测物的位置和类型标记出来,相应的处理过程可以如下:显示目标图像,基于各检测物对应的位置信息和检测物类别,在目标图像中对各检测物添加标记。
[0101] 在实施中,在一些可以显示目标图像的场景中,可以在显示的目标图像中对其中的检测物进行标记。标记可以是对目标图像中检测物的位置标记和类型标记,在不需要进行类别标记时,如对大合照中人脸的标记,也可以只对检测物进行位置标记。
[0102] 位置标记的形式可以是在目标图像中,用矩形框框出检测物。类别标记的形式可以是在位置标记的矩形框旁,用文字显示该检测物所属的类别。
[0103] 以应用在智能化监控场景中对犯罪分子进行标记为例,将监控视频中的每一个图像帧进行上述的物体检测处理之后,当在图像帧中检测到犯罪份子时,在该图像帧中用矩形框将犯罪份子框出,然后显示处理后的图像帧。
[0104] 图2是根据一示例性实施例示出的一种物体检测的装置框图。参照图2,该装置包括确定单元201和检测单元202。
[0105] 确定单元201,被配置为确定目标图像的特征图,确定所述特征图中的多个特征点,对应每个特征点,分别确定多个参考点,以每个参考点为中心分别确定至少一个锚点;
[0106] 检测单元202,被配置为基于确定出的各锚点,对所述特征图进行物体检测,得到所述目标图像中包括的各检测物对应的位置信息和检测物类别。
[0107] 可选的,确定单元201,被配置为:
[0108] 对应每个特征点,确定至少一个初始锚点;
[0109] 在每个初始锚点中确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0110] 可选的,确定单元201,被配置为:
[0111] 在每个初始锚点中确定多个均匀分布的参考点,基于每个初始锚点中的参考点,将每个初始锚点分别划分为多个锚点,划分得到的每个锚点的中心点为一个参考点。
[0112] 可选的,确定单元201,被配置为:
[0113] 对应每个特征点,基于预设的多个参考点相对于特征点的位置信息,分别确定多个参考点,以每个参考点为中心,分别确定至少一个锚点。
[0114] 可选的,确定单元201,被配置为:
[0115] 确定目标图像多个不同尺度的特征图。
[0116] 可选的,所述装置还包括:
[0117] 标记单元203,被配置为显示所述目标图像,基于所述各检测物对应的位置信息和检测物类别,在所述目标图像中对各检测物添加标记。
[0118] 可选的,检测单元202,被配置为:
[0119] 将确定出的各锚点包含的特征图区域,输入到不同检测物类别对应的检测模型中,得出每个锚点对应不同检测模型的检测结果;
[0120] 基于每个锚点对应不同检测模型的检测结果,确定所述目标图像中包括的各检测物对应的位置信息和检测物类别。
[0121] 关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0122] 图3是根据一示例性实施例示出的一种终端的结构框图。该终端300可以是便携式移动终端,比如:智能手机、平板电脑。终端300还可能被称为用户设备、便携式终端等其他名称。
[0123] 通常,终端300包括有:处理器301和存储器302。
[0124] 处理器301可以包括一个或多个处理核心,比如4核心处理器、9核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
[0125] 存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中提供的物体检测的方法。
[0126] 在一些实施例中,终端300还可选包括有:外围设备接口303和至少一个外围设备。具体地,外围设备包括:射频电路304、触摸显示屏305、摄像头306、音频电路307、定位组件
308和电源309中的至少一种。
[0127] 外围设备接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和外围设备接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和外围设备接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0128] 射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
[0129] 触摸显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏305还具有采集在触摸显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。触摸显示屏305用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,触摸显示屏305可以为一个,设置终端300的前面板;在另一些实施例中,触摸显示屏305可以为至少两个,分别设置在终端300的不同表面或呈折叠设计;在再一些实施例中,触摸显示屏305可以是柔性显示屏,设置在终端300的弯曲表面上或折叠面上。甚至,触摸显示屏305还可以设置成非矩形的不规则图形,也即异形屏。触摸显示屏305可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
[0130] 摄像头组件306用于采集图像或视频。可选地,摄像头组件306包括前置摄像头和后置摄像头。通常,前置摄像头用于实现视频通话或自拍,后置摄像头用于实现照片或视频的拍摄。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能,主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能。在一些实施例中,摄像头组件306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0131] 音频电路307用于提供用户和终端300之间的音频接口。音频电路307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器301进行处理,或者输入至射频电路304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器301或射频电路304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路307还可以包括耳机插孔。
[0132] 定位组件308用于定位终端300的当前地理位置,以实现导航或LBS(Location Based  Service,基于位置的服务)。定位组件308可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
[0133] 电源309用于为终端300中的各个组件进行供电。电源309可以是交流电、直流电、一次性电池或可充电电池。当电源309包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0134] 在一些实施例中,终端300还包括有一个或多个传感器310。该一个或多个传感器310包括但不限于:加速度传感器311、陀螺仪传感器312、压力传感器313、指纹传感器314、光学传感器315以及接近传感器316。
[0135] 加速度传感器311可以检测以终端300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器311可以用于检测重力加速度在三个坐标轴上的分量。处理器301可以根据加速度传感器311采集的重力加速度信号,控制触摸显示屏305以横向视图或纵向视图进行用户界面的显示。加速度传感器311还可以用于游戏或者用户的运动数据的采集。
[0136] 陀螺仪传感器312可以检测终端300的机体方向及转动角度,陀螺仪传感器312可以与加速度传感器311协同采集用户对终端300的3D动作。处理器301根据陀螺仪传感器312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0137] 压力传感器313可以设置在终端300的侧边框和/或触摸显示屏305的下层。当压力传感器313设置在终端300的侧边框时,可以检测用户对终端300的握持信号,根据该握持信号进行左右手识别或快捷操作。当压力传感器313设置在触摸显示屏305的下层时,可以根据用户对触摸显示屏305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0138] 指纹传感器314用于采集用户的指纹,以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器301授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器314可以被设置终端300的正面、背面或侧面。当终端300上设置有物理按键或厂商Logo时,指纹传感器314可以与物理按键或厂商Logo集成在一起。
[0139] 光学传感器315用于采集环境光强度。在一个实施例中,处理器301可以根据光学传感器315采集的环境光强度,控制触摸显示屏305的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏305的显示亮度;当环境光强度较低时,调低触摸显示屏305的显示亮度。在另一个实施例中,处理器301还可以根据光学传感器315采集的环境光强度,动态调整摄像头组件306的拍摄参数。
[0140] 接近传感器316,也称距离传感器,通常设置在终端300的正面。接近传感器316用于采集用户与终端300的正面之间的距离。在一个实施例中,当接近传感器316检测到用户与终端300的正面之间的距离逐渐变小时,由处理器301控制触摸显示屏305从亮屏状态切换为息屏状态;当接近传感器316检测到用户与终端300的正面之间的距离逐渐变大时,由处理器301控制触摸显示屏305从息屏状态切换为亮屏状态。
[0141] 本领域技术人员可以理解,图3中示出的结构并不构成对终端300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0142] 图4是根据一示例性实施例示出的一种计算机设备的结构示意图,该计算机设备可以是上述实施例中的服务器。该计算机设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述物体检测的方法。
[0143] 本公开实施例中,还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行以完成上述物体检测的方法。
[0144] 本公开实施例中,还提供了一种应用程序,包括一条或多条指令,该一条或多条指令可以由服务器的处理器执行,以完成上述物体检测的方法。
[0145] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0146] 应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。