一种图像目标定位方法、装置、设备及存储介质转让专利

申请号 : CN202110846920.5

文献号 : CN115700767A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 林建民

申请人 : 广州视源电子科技股份有限公司广州视源人工智能创新研究院有限公司

摘要 :

本申请实施例公开一种图像目标定位方法、装置、设备及存储介质。该方法包括:将待定位图片输入预先训练好的主干网络中,通过主干网络提取待定位图片的三维特征信息;根据三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对二维特征信息进行上采样,确定各方向的特征向量;根据特征向量构建待定位图片的热力图,并根据热力图确定待定位图片中的定位目标。采用上述技术手段,解决现有图像目标定位方法效率低的问题。

权利要求 :

1.一种图像目标定位方法,其特征在于,包括:

将待定位图片输入预先训练好的主干网络中,通过所述主干网络提取所述待定位图片的三维特征信息;

根据所述三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对所述二维特征信息进行上采样,确定各方向的特征向量;

根据所述特征向量构建所述待定位图片的热力图,并根据所述热力图确定所述待定位图片中的定位目标。

2.根据权利要求1所述的方法,其特征在于,所述通过所述主干网络提取所述待定位图片的三维特征信息包括:通过所述主干网络中的子模块网络分别提取不同尺度的三维特征信息,得到各个尺度对应的第一三维特征,所述第一三维特征包括各个通道的水平方向上的特征值、竖直方向上的特征值。

3.根据权利要求1所述的方法,其特征在于,所述根据所述三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息包括:根据所述三维特征信息的各通道在水平方向上的特征值,确定所述水平方向对应的第一二维特征;

根据所述三维特征信息的各通道在竖直方向上的特征值,确定所述竖直方向对应的第二二维特征;

对所述三维特征信息进行仿射变换,以将所述三维特征信息在水平方向和竖直方向的特征值变换至两个对角线方向的特征值;

根据仿射变换后的三维特征信息的各个通道在水平方向和竖直方向上的特征值,分别确定两个对角线方向的第三二维特征和第四二维特征。

4.根据权利要求2所述的方法,其特征在于,所述对所述二维特征信息进行上采样,确定各方向的特征向量包括:根据所述各个尺度的二维特征信息,分别对各方向的二维特征信息进行反卷积和通道拼接处理,以得到各方向对应的与所述待定位图片的尺度相同的二维特征信息;

根据该二维特征信息的各通道上的特征值,确定各方向的特征向量。

5.根据权利要求4所述的方法,其特征在于,所述根据所述各个尺度的二维特征信息,分别对各方向的二维特征信息进行反卷积和通道拼接处理包括:对第一尺度的二维特征信息进行一维卷积和一维反卷积,得到第二尺度的放大特征信息,所述第二尺度为所述第一尺度的两倍,所述第一尺度为所述各个尺度中的最小尺度;

将所述第二尺度的放大特征信息和二维特征信息在通道维度进行拼接,得到所述第二尺度的拼接特征信息;

对所述第二尺度的拼接特征信息进行一维卷积和一维反卷积,得到第三尺度的放大特征信息;

若所述第二尺度为所述各个尺度中的最大尺度,则将所述第三尺度的放大特征信息确定为对应方向的与所述待定位图片的尺度相同的二维特征信息;

若所述第二尺度不为所述各个尺度中的最大尺度,则将所述第三尺度的放大特征信息和二维特征信息在通道维度进行拼接,直至得到所述各个尺度中最大尺度的拼接特征信息;

将所述最大尺度的拼接特征信息进行一维卷积和一维反卷积,得到第四尺度的放大特征信息;

将所述第四尺度的放大特征信息确定为对应方向的与所述待定位图片的尺度相同的二维特征信息。

6.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量构建所述待定位图片的热力图包括:根据水平方向对应的第一特征向量和竖直方向对应的第二特征向量构建所述待定位图片的第一热力图;

根据两个对角线方向分别对应的第三特征向量和第四特征向量构建所述待定位图片的第二热力图;

对所述第二热力图进行仿射逆变换,得到所述待定位图片的第三热力图;

根据所述第一热力图和所述第三热力图中各坐标对应的特征值,构成所述待定位图片的热力图。

7.根据权利要求1所述的方法,其特征在于,所述根据所述热力图确定所述待定位图片中的定位目标包括:将所述热力图中的最大特征值与预设特征阈值进行比较,在所述最大特征值满足所述预设特征阈值时,确定所述最大特征值的坐标为所述定位目标的坐标。

8.一种图像目标定位装置,其特征在于,包括:

特征提取模块,被配置为将待定位图片输入预先训练好的主干网络中,通过所述主干网络提取所述待定位图片的三维特征信息;

上采样模块,被配置为根据所述三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对所述二维特征信息进行上采样,确定各方向的特征向量;

定位模块,被配置为根据所述特征向量构建所述待定位图片的热力图,并根据所述热力图确定所述待定位图片中的定位目标。

9.一种图像目标定位设备,其特征在于,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑7任一所述的图像目标定位方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1‑7任一所述的图像目标定位方法。

说明书 :

一种图像目标定位方法、装置、设备及存储介质

技术领域

[0001] 本申请实施例涉及图像处理技术领域,尤其涉及一种图像目标定位方法、装置、设备及存储介质。

背景技术

[0002] 图像目标定位是根据二维RGB图像确定其是否存在符合条件的目标,当存在目标时,输出目标在二维RGB图像中的水平坐标和竖直坐标。目前解决目标定位问题的解决方案主要包括坐标回归方法和热力图回归方法。
[0003] 热力图回归方法中的深度神经网络模型的输出与输入具有相同的尺寸,突破了单个图片到两个坐标值的映射。但现有热力图回归方法大多数采用卷积或池化层对提取到的特征进行降采样,过滤噪声提取有效特征。为了保证输入输出的尺寸相同,大多数模型都会针对水平和竖直方向采取二维反卷积的上采样方式。但二维反卷积使用时运算量较大,导致目标定位过程漫长,定位效率低。

发明内容

[0004] 本申请实施例提供一种图像目标定位方法、装置、设备及存储介质,解决现有图像目标定位方法效率低的问题。
[0005] 在第一方面,本申请实施例提供了一种图像目标定位方法,包括:
[0006] 将待定位图片输入预先训练好的主干网络中,通过所述主干网络提取所述待定位图片的三维特征信息;
[0007] 根据所述三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对所述二维特征信息进行上采样,确定各方向的特征向量;
[0008] 根据所述特征向量构建所述待定位图片的热力图,并根据所述热力图确定所述待定位图片中的定位目标。
[0009] 在第二方面,本申请实施例提供了一种图像目标定位装置,包括:
[0010] 特征提取模块,被配置为将待定位图片输入预先训练好的主干网络中,通过所述主干网络提取所述待定位图片的三维特征信息;
[0011] 上采样模块,被配置为根据所述三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对所述二维特征信息进行上采样,确定各方向的特征向量;
[0012] 定位模块,被配置为根据所述特征向量构建所述待定位图片的热力图,并根据所述热力图确定所述待定位图片中的定位目标。
[0013] 在第三方面,本申请实施例提供了一种图像目标定位设备,包括:
[0014] 一个或多个处理器;
[0015] 存储器,用于存储一个或多个程序;
[0016] 当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的图像目标定位方法。
[0017] 在第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的图像目标定位方法。
[0018] 上述图像目标定位方法、装置、设备及存储介质,通过将待定位图片输入预先训练好的主干网络中,通过主干网络提取待定位图片的三维特征信息;根据三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对二维特征信息进行上采样,确定各方向的特征向量;根据特征向量构建待定位图片的热力图,并根据热力图确定待定位图片中的定位目标。通过上述技术手段,将三维特征信息转换为各个方向对应的二维特征信息,对二维特征信息进行上采样,极大降低了构建热力图的运算量,提高了热力图构建速度,提高了定位处理效率。而且从多个方向的特征信息构建热力图,有效利用了图片在多个方向上的响应,保证模型的准确性,以在低运算量的基础上实现准确的目标定位。

附图说明

[0019] 图1是本申请一个实施例提供的一种图像目标定位方法的流程图;
[0020] 图2是本申请实施例提供的第一三维特征的示意图;
[0021] 图3是本申请实施例提供的二维特征信息的示意图;
[0022] 图4是本申请实施例提供的多尺度二维特征信息上采样的模型示意图;
[0023] 图5是本申请一个实施例提供的一种图像目标定位装置的结构示意图;
[0024] 图6是本申请一个实施例提供的一种图像目标定位设备的结构示意图。

具体实施方式

[0025] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0026] 需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或操作或对象与另一个实体或操作或对象区分开来,而不一定要求或者暗示这些实体或操作或对象之前存在任何这种实际的关系或顺序。例如,第一样本集和第二样本集的“第一”和“第二”用来区分不同的样本集合。
[0027] 本申请实施例中提供的图像目标定位方法可以由图像目标定位设备执行,该图像目标定位设备可以通过软件和/或硬件的方式实现,该图像目标定位设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。例如,图像目标定位设备可以是手机、平板和电脑这一类智能设备。
[0028] 图像目标定位设备安装有至少一类操作系统,其中,操作系统包括但不限定于安卓系统、Linux系统及Windows系统。图像目标定位设备可以基于操作系统安装至少一个应用程序,应用程序可以为操作系统自带的应用程序,也可以为从第三方设备或者服务器中下载的应用程序。在该实施例中,图像目标定位设备至少按照有可以执行图像目标定位方法的应用程序,因此,图像目标定位设备也可以是应用程序本身。
[0029] 为了便于理解,实施例中以电脑为图像目标定位设备进行示例性描述。
[0030] 图1是本申请一个实施例提供的一种图像目标定位方法的流程图。参考图1,该图像目标定位方法包括:
[0031] S110、将待定位图片输入预先训练好的主干网络中,通过主干网络提取待定位图片的三维特征信息。
[0032] 其中,待定位图片为需要进行目标定位的二维RGB图片。目标定位为确定待定位图片中是否存在该目标以及该目标位于待定位图片的哪个位置,目标可以是人体的各个关键部位,如关节、指尖等,也可以是其他物品。本实施例以目标为指尖为例进行描述。示例性的,若要确定检测待定位图片中是否存在指尖以及指尖的位置,可通过热力图回归方法构建待定位图片的热力图,根据热力图进行指令定位。但现有热力图回归方法中的深度神经网络模型需要对三维特征进行二维反卷积,这导致现有热力图回归方法定位过程漫长,定位效率低下。对此,本实施例提出的图像目标定位方法,旨在通过将三维特征信息转换为二维特征信息,以对二维特征信息进行上采样,避免二维反卷积操作,有效降低热力图构建的运算量,提高定位处理效率。
[0033] 在一个实施例中,主干网络为提取待定位图片的特征的卷积神经网络,通过预先训练好的卷积神经网络的卷积核对待定位图片进行卷积,得到三维特征信息。其中三维特征信息包括不同通道下的特征矩阵,三维特征信息的通道数和特征矩阵结构由待定位图片的分辨率和卷积核的结构和数量决定。在该实施例中,为提高目标定位模型对于不同尺度目标的性能,通过主干网络中的子模块网络分别提取不同尺度的三维特征信息,得到各个尺度对应的第一三维特征,第一三维特征包括各个通道的水平方向上的特征值、竖直方向上的特征值。其中,主干网络中的子模块网络可理解为卷积神经网络中的卷积核,通过不同结构的卷积核对待定位图片进行卷积,提取到不同尺度的三维特征信息。一种结构的卷积核对应提取一种尺度的三维特征信息,而每种结构的卷积核包括多个参数不同的卷积核,每种结构的卷积核数量等于对应提取到的三维特征信息的通道数。示例性的,假设主干网络中设置4个子模块网络,子模块网络采用mobilenetV2结构,每个子模块网络的步长设定为2。当待定位图片的尺度和通道数为[H,W,3]时,通过每个子模块网络提取对应尺度的三维特征信息,尺度从大到小的三维特征信息依次为F1、F2、F3和F4,其尺度分别为[H/2,W/2,C1]、[H/4,W/4,C2]、[H/8,W/8,C3]、[H/16,W/16,C4],其中C1、C2、C3、C4依次为三维特征信息F1、F2、F3和F4的通道数。进一步的,第一三维特征为不同尺度对应的三维特征信息。图2是本申请实施例提供的第一三维特征的示意图。如图2所示,第一三维特征每层的特征矩阵11表示每个通道下的特征矩阵11,每个通道下的特征矩阵11可看作由水平方向上的N个行向量组成或由竖直方向上的N个列向量组成,行向量和列向量均为N维向量,每个行向量和列向量均包括N个特征值。
[0034] S120、根据三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对二维特征信息进行上采样,确定各方向的特征向量。
[0035] 示例性的,热力图回归方法的特性在于要输出与输入图片一样尺度的热力图,而在通过卷积操作提取到的三维特征信息的尺度小于输入图片,对此需要对三维特征信息进行二维反卷积,以将三维特征信息的尺度增大至与输入图片一致。可理解,三维特征信息可看作一个平面,而一个平面由多条线构成。基于该特性,本实施例提出分别提取三维特征信息中各个方向的二维特征信息,以通过各个方向的二维特征信息表征三维特征信息,而对各个方向的二维特征信息进行一维反卷积相当于对三维特征信息进行二维反卷积,但一维反卷积相比于二维反卷积所需要的运算量大大减少。因此通过提取三维特征信息中各方向的二维特征信息并对其进行一维反卷积,可有效减少运算量。
[0036] 在一个实施例中,通过提取三维特征信息的水平方向、竖直方向和两个对角线方向的二维特征信息,以通过这四个方向上的二维特征信息表征三维特征信息。可理解,虽然单个方向的二维特征信息相比于三维特征信息缺少空间信息,但将多个方向的二维特征信息进行融合,可以有效利用待定位图片在多个方向上的特征,保证定位模型的准确性。在该实施例中,提取各个方向的二维特征信息的步骤包括S1201‑S1204:
[0037] S1201、根据三维特征信息的各通道在水平方向上的特征值,确定水平方向对应的第一二维特征。
[0038] 示例性的,图3是本申请实施例提供的二维特征信息的示意图。如图3所示,三维特征信息在水平方向上的特征值可理解为特征矩阵的每个行向量包含的特征元素的特征值,根据每一行向量的特征元素的特征值,确定水平方向的第一二维特征12对应行的特征值。在该实施例中,将行向量的最大特征值确定为第一二维特征12对应行的特征值。除此之外,还可以将行向量的平均特征值确定为第一二维特征12对应行的特征值。在确定每个行向量对应的特征值后,得到第一二维特征12,其中第一二维特征为特征向量。基于此,每个通道的特征矩阵都能提取到对应通道下的特征向量。
[0039] 进一步的,由于本实施例会提取各个尺度的第一三维特征,因此需要从各个尺度的第一三维特征中提取各个尺度对应的水平方向的第一二维特征。示例性的,以第一三维特征F1为例进行描述。第一三维特征F1的尺度和通道数[H/2,W/2,C1]通过提取水平方向的第一二维特征,得到第一二维特征的尺度为[W/2,C1]。由于本实施例设置了四个尺度,因此会获取到四个尺度分别对应的第一二维特征。
[0040] S1202、根据三维特征信息的各通道在竖直方向上的特征值,确定竖直方向对应的第二二维特征。
[0041] 示例性的,参考图3,三维特征信息在竖直方向上的特征值可理解为特征矩阵的每个列向量包含的特征元素的特征值,根据每一列向量的特征元素的特征值,确定竖直方向的第二二维特征13对应列的特征值。在该实施例中,将列向量的最大特征值确定为第二二维特征13对应列的特征值。除此之外,还可以将列向量的平均特征值确定为第二二维特征13对应列的特征值。在确定每个列向量对应的特征值后,得到第二二维特征13,其中第二二维特征为特征向量。基于此,每个通道的特征矩阵都能提取到对应通道下的特征向量。
[0042] 相应的,从各个尺度的第一三维特征中提取各个尺度对应的竖直方向的第二二维特征。示例性的,以第一三维特征F1为例进行描述。第一三维特征F1的尺度和通道数[H/2,W/2,C1]通过提取竖直方向的第二二维特征,得到第一二维特征的尺度为[H/2,C1]。同样的本实施例设置了四个尺度,因此会获取到四个尺度分别对应的第二二维特征。
[0043] S1203、对三维特征信息进行仿射变换,以将三维特征信息在水平方向和竖直方向的特征值变换至两个对角线方向的特征值。
[0044] 示例性的,本实施例中进行目标定位的待定位图片为正方形图片或近似正方形图片,三维特征信息的尺度也近似于或等于正方形的尺度。对三维特征信息进行仿射变换,将三维特征信息旋转和缩放,使得原来的三维特征信息的对角线方向正好是仿射变换后的三维特征信息的竖直方向和水平方向。
[0045] S1204、根据仿射变换后的三维特征信息的各个通道在水平方向和竖直方向上的特征值,分别确定两个对角线方向的第三二维特征和第四二维特征。
[0046] 示例性的,由于原来的三维特征信息的对角线方向正好是仿射变换后的三维特征信息的竖直方向和水平方向,因此提取原来三维特征信息的对角线方向的二维特征信息相当于,提取仿射变换后的三维特征信息的水平方向和竖直方向的二维特征信息。该水平方向和竖直方向的提取步骤与上述S1201和S1202的提取步骤相同,只是提取对象从原先三维特征信息变为仿射变换后的三维特征信息。对此不再赘述其提取过程,详情可参考步骤S1201和S1202。
[0047] 进一步的,对各个方向的二维特征信息上采样,以将各个方向的二维特征信息的尺度增大至与待定位图片的尺度一致。需要说明的是,每个方向的二维特征信息的上采样步骤相同,因此本实施例以对水平方向的第一二维特征的上采样过程为例进行描述。示例性的,如果本实施例只设置一个尺度,则直接将第一二维特征进行一维卷积和一维反卷积,即可得到与待定位图片的水平方向的尺度相同的特征向量。如果本实施例设置多个尺度,则需要对各个尺度的第一二维特征进行一维反卷积和拼接。在该实施例中,对多尺度的第一二维特征进行上采样的步骤包括S1205‑S1206:
[0048] S1205、根据各个尺度的二维特征信息,分别对各方向的二维特征信息进行反卷积和通道拼接处理,以得到各方向对应的与待定位图片的尺度相同的二维特征信息。
[0049] 示例性的,第一二维特征上采样步骤具体包括S12051‑S12057:
[0050] S12051、对第一尺度的二维特征信息进行一维卷积和一维反卷积,得到第二尺度的放大特征信息,第二尺度为第一尺度的两倍,第一尺度为各个尺度中的最小尺度。
[0051] S12052、将第二尺度的放大特征信息和二维特征信息在通道维度进行拼接,得到第二尺度的拼接特征信息。
[0052] S12053、对第二尺度的拼接特征信息进行一维卷积和一维反卷积,得到第三尺度的放大特征信息。
[0053] S12054、若第二尺度为各个尺度中的最大尺度,则将第三尺度的放大特征信息确定为对应方向的与待定位图片的尺度相同的二维特征信息。
[0054] S12055、若第二尺度不为各个尺度中的最大尺度,则将第三尺度的放大特征信息和二维特征信息在通道维度进行拼接,直至得到各个尺度中最大尺度的拼接特征信息。
[0055] S12056、将最大尺度的拼接特征信息进行一维卷积和一维反卷积,得到第四尺度的放大特征信息。
[0056] S12057、将第四尺度的放大特征信息确定为对应方向的与待定位图片的尺度相同的二维特征信息
[0057] 示例性的,以本实施例设置的四个尺度进行描述。图4是本申请实施例提供的多尺度二维特征信息上采样的模型示意图。如图4所示,第一二维特征14对应的四个尺度分别为[W/2,C1]、[W/4,C2]、[W/8,C3]和[W/16,C4],其对应的第一二维特征分别为G1、G2、G3和G4。其中第一二维特征G4的尺度最小,因此将第一二维特征G4进行一维卷积和一维反卷积,得到尺度为[W/8,C4]的第一放大特征15。将尺度为[W/8,C4]的第一放大特征15与尺度为[W/
8,C3]的第一二维特征14在通道维度进行拼接,得到尺度为[W/8,C3+C4]的第一拼接特征
16。由于尺度为[W/8,C3+C4]的第一拼接特征16小于最大尺度W/2,因此需要继续对尺度为[W/8,C3+C4]的第一拼接特征16进行一维卷积和一维反卷积,得到尺度为[W/4,C3+C4]的第一放大特征15,并将尺度为[W/4,C3+C4]的第一放大特征15与尺度为[W/4,C2]的第一二维特征14在通道维度进行拼接,得到尺度为[W/4,C3+C4+C2]第一拼接特征16。依次执行一维卷积、一维反卷积和通道拼接,直至得到尺度为[W/2,C3+C4+C2+C1]第一拼接特征16。对尺度为[W/2,C3+C4+C2+C1]第一拼接特征16进行一维卷积和一维反卷积,得到尺度为[W,C3+C4+C2+C1]的第一放大特征17。
[0058] S1206、根据该二维特征信息的各通道上的特征值,确定各方向的特征向量。
[0059] 示例性的,此时尺度为[W,C3+C4+C2+C1]的第一放大特征17的尺度与待定位图片的水平方向的尺度相同,根据该第一放大特征17在各个通道上的特征向量确定水平方向的第一特征向量,其中第一特征向量可理解为待定位图片的水平方向的图像特征。第一特征向量与待定位图片的水平方向的尺度相同,保证了后续基于第一特征向量构建的热力图的尺度与待定位图片的尺度相同。
[0060] 需要说明的,竖直方向和两个对角线方向分别对应的第二特征向量、第三特征向量和第四特征向量的确定步骤与水平方向的第一特征向量的确定步骤相同,在此不再赘述,详情可参考步骤S1205‑S1206。
[0061] S130、根据特征向量构建待定位图片的热力图,并根据热力图确定待定位图片中的定位目标。
[0062] 示例性的,由于二维特征信息进行上采样后还是特征向量,而热力图可理解为特征矩阵,因此需要至少两个特征向量构建热力图。基于此,构建待定位图片的热力图的步骤包括S1301‑S1304:
[0063] S1301、根据水平方向对应的第一特征向量和竖直方向对应的第二特征向量构建待定位图片的第一热力图。
[0064] 示例性的,第一特征向量的维度为W,第二特征向量的维度为H,将第一特征向量转换为1×W的矩阵,将第二特征向量转换为H×1的矩阵,将这两个矩阵中的特征值对应点乘,得到H×W的矩阵。该H×W矩阵即为水平方向和竖直方向的特征向量构建的第一热力图。
[0065] S1302、根据两个对角线方向分别对应的第三特征向量和第四特征向量构建待定位图片的第二热力图。
[0066] 示例性的,与第一特征向量和第二特征向量构建第一热力图的步骤相同,在此不再赘述。
[0067] S1303、对第二热力图进行仿射逆变换,得到待定位图片的第三热力图。
[0068] 示例性的,构建第二热力图的特征向量来源于仿射变换后的三维特征信息,因此第二热力图和第一热力图在同一坐标点上不具有明确的映射关系。若直接使用第二热力图的元素与第一热力图同一坐标上的元素点乘,则导致点乘得到的热力图的特征值并不能用于表征待定位图片对应坐标处的图像信息,而进而影响定位结果的准确性。因此需要通过S1203中仿射变换对应的逆变换,将第二热力图各特征值的坐标转换为与第一热力图对应特征的坐标,得到第三热力图。可理解,第三热力图中各个坐标上的特征值与第一热力图中相同坐标上的特征值存在直接的映射关系。
[0069] S1304、根据第一热力图和第三热力图中各坐标对应的特征值,构成待定位图片的热力图。
[0070] 示例性的,将第一热力图和第三热力图的同一坐标上的特征值相乘或相加,得到待定位图片的热力图。需要说明的,当只有第一热力图或第三热力图存在多个目标时,待定位图片的热力图中的目标会多于真实目标数量,才会使得热力图构建失败。本实施例通过竖直水平热力图和对角线热力图的结合,有效利用待定位图片在水平、竖直以及两个对角线方向的响应,在保证对于目标响应没有漏掉的基础上,屏蔽多个角度的误响应,保证了热力图的正确性和目标定位的准确度。
[0071] 进一步的,在成功构建待定位图片的热力图后,根据热力图各个坐标处的特征值,确定目标的置信度和坐标。示例性的,将热力图中的最大特征值与预设特征阈值进行比较,在最大特征值满足预设特征阈值时,确定最大特征值的坐标为定位目标的坐标。其中,热力图中的最大特征值为目标的置信度。预设特征阈值可理解为热力图中存在目标时目标的最低置信度,若热力图中的最大特征值大于或等于预设特征阈值,则表明热力图中存在目标,若热力图中的最大特征值小于预设特征阈值,则表明热力图中不存在目标。在热力图中存在目标时,将最大特征值的坐标确定为目标的坐标。
[0072] 另一方面,本实施例提供了一个目标定位模型,将待定位图片输入目标定位模型,得到目标定位模型输出的定位结果。目标定位模型由上述实施例描述的主干网络、二维特征提取网络、上采样网络、热力图构建网络以及阈值定位网络构成。其中,二维特征提取网络用于从主干网络输入的三维特征信息提取出各个方向的二维特征信息。上采样网络用于分别对各个方向的二维特征信息进行上采样以得到各个方向的与待定位图片尺度一致的特征向量。热力图构建网络用于根据上采样得到的特征向量构建待定位图片的热力图。阈值定位网络用于根据待定位图片的热力图和预设定位阈值对待定位图片中的目标进行定位。
[0073] 在该实施例中,目标定位模型中的主干网络和上采样网络均涉及机器学习模型,因此需要事先通过训练样本对目标定位模型进行训练。示例性的,训练样本包括样本图片和对应的目标定位标签,目标定位标签为基于高斯分布的热力图。在训练阶段,将训练样本输入目标定位模型,得到目标定位模型输出的样本定位结果,将样本定位结果和目标定位标签一同代入损失函数中,通过损失函数输出的损失结果调整主干网络和上采样网络的模型参数。其中,损失函数如下:
[0074]
[0075]
[0076] 其中,Hxy为目标定位标签,xt和yt为目标定位标签中的目标坐标,σ为方差, 为样本定位结果,α和β分别为超参数,N为正样本的数量。
[0077] 综上,本实施例提供的图像目标定位方法,通过将待定位图片输入预先训练好的主干网络中,通过主干网络提取待定位图片的三维特征信息;根据三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对二维特征信息进行上采样,确定各方向的特征向量;根据特征向量构建待定位图片的热力图,并根据热力图确定待定位图片中的定位目标。通过上述技术手段,将三维特征信息转换为各个方向对应的二维特征信息,对二维特征信息进行上采样,极大降低了构建热力图的运算量,提高了热力图构建速度,提高了定位处理效率。而且从多个方向的特征信息构建热力图,有效利用了图片在多个方向上的响应,保证模型的准确性,以在低运算量的基础上实现准确的目标定位。
[0078] 图5是本申请一个实施例提供的一种图像目标定位装置的结构示意图。参考图5,该图像目标定位装置包括:特征提取模块201、上采样模块202、定位模块203。
[0079] 其中,特征提取模块,被配置为将待定位图片输入预先训练好的主干网络中,通过主干网络提取待定位图片的三维特征信息;
[0080] 上采样模块,被配置为根据三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对二维特征信息进行上采样,确定各方向的特征向量;
[0081] 定位模块,被配置为根据特征向量构建待定位图片的热力图,并根据热力图确定待定位图片中的定位目标。
[0082] 在上述实施例的基础上,特征提取模块包括:多尺度特征提取单元,被配置为通过主干网络中的子模块网络分别提取不同尺度的三维特征信息,得到各个尺度对应的第一三维特征,第一三维特征包括各个通道的水平方向上的特征值、竖直方向上的特征值。
[0083] 在上述实施例的基础上,上采样模块包括:二维特征第一提取单元,被配置为根据三维特征信息的各通道在水平方向上的特征值,确定水平方向对应的第一二维特征;二维特征第二提取单元,被配置为根据三维特征信息的各通道在竖直方向上的特征值,确定竖直方向对应的第二二维特征;仿射变换单元,被配置为对三维特征信息进行仿射变换,以将三维特征信息在水平方向和竖直方向的特征值变换至两个对角线方向的特征值;二维特征第三提取单元,被配置为根据仿射变换后的三维特征信息的各个通道在水平方向和竖直方向上的特征值,分别确定两个对角线方向的第三二维特征和第四二维特征。
[0084] 在上述实施例的基础上,上采样模块包括:尺度还原单元,被配置为根据各个尺度的二维特征信息,分别对各方向的二维特征信息进行反卷积和通道拼接处理,以得到各方向对应的与待定位图片的尺度相同的二维特征信息;特征向量确定单元,被配置为根据该二维特征信息的各通道上的特征值,确定各方向的特征向量。
[0085] 在上述实施例的基础上,尺度还原单元包括:第一尺度放大子单元,被配置为对第一尺度的二维特征信息进行一维卷积和一维反卷积,得到第二尺度的放大特征信息,第二尺度为第一尺度的两倍,第一尺度为各个尺度中的最小尺度;第一通道拼接子单元,被配置为将第二尺度的放大特征信息和二维特征信息在通道维度进行拼接,得到第二尺度的拼接特征信息;第二尺度放大子单元,被配置为对第二尺度的拼接特征信息进行一维卷积和一维反卷积,得到第三尺度的放大特征信息;第一确定子单元,被配置为若第二尺度为各个尺度中的最大尺度,则将第三尺度的放大特征信息确定为对应方向的与待定位图片的尺度相同的二维特征信息;第二通道拼接子单元,被配置为若第二尺度不为各个尺度中的最大尺度,则将第三尺度的放大特征信息和二维特征信息在通道维度进行拼接,直至得到各个尺度中最大尺度的拼接特征信息;第三尺寸放大子单元,被配置为将最大尺度的拼接特征信息进行一维卷积和一维反卷积,得到第四尺度的放大特征信息;第二确定单元,被配置为将第四尺度的放大特征信息确定为对应方向的与待定位图片的尺度相同的二维特征信息。
[0086] 在上述实施例的基础上,定位模块包括:第一构建单元,被配置为根据水平方向对应的第一特征向量和竖直方向对应的第二特征向量构建待定位图片的第一热力图;第二构建单元,被配置为根据两个对角线方向分别对应的第三特征向量和第四特征向量构建待定位图片的第二热力图;仿射逆变换单元,被配置为对第二热力图进行仿射逆变换,得到待定位图片的第三热力图;第三构建单元,被配置为根据第一热力图和第三热力图中各坐标对应的特征值,构成待定位图片的热力图。
[0087] 在上述实施例的基础上,定位模块包括:阈值定位单元,被配置为将热力图中的最大特征值与预设特征阈值进行比较,在最大特征值满足预设特征阈值时,确定最大特征值的坐标为定位目标的坐标。
[0088] 综上,本实施例提供的图像目标定位装置,通过将待定位图片输入预先训练好的主干网络中,通过主干网络提取待定位图片的三维特征信息;根据三维特征信息在各方向上的特征值,确定各方向对应的二维特征信息,对二维特征信息进行上采样,确定各方向的特征向量;根据特征向量构建待定位图片的热力图,并根据热力图确定待定位图片中的定位目标。通过上述技术手段,将三维特征信息转换为各个方向对应的二维特征信息,对二维特征信息进行上采样,极大降低了构建热力图的运算量,提高了热力图构建速度,提高了定位处理效率。而且从多个方向的特征信息构建热力图,有效利用了图片在多个方向上的响应,保证模型的准确性,以在低运算量的基础上实现准确的目标定位。
[0089] 值得注意的是,上述基于图像目标定位装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
[0090] 本申请实施例提供的图像目标定位装置包含在图像目标定位设备中,且可用于执行上述任意实施例提供的图像目标定位方法,具备相应的功能和有益效果。
[0091] 图6是本申请一个实施例提供的一种图像目标定位设备的结构示意图。如图6所示,该图像目标定位设备包括处理器30、存储器31、输入装置32、输出装置33以及显示屏34;图像目标定位设备中处理器30的数量可以是一个或多个,图6中以一个处理器30为例;图像目标定位设备中显示屏34的数量可以是一个或多个,图6中以一个显示屏34为例;图像目标定位设备中的处理器30、存储器31、输入装置32、输出装置33以及显示屏34可以通过总线或其他方式连接,图6中以通过总线连接为例。
[0092] 存储器31作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的图像目标定位方法对应的程序指令/模块(例如,图像目标定位装置中的特征提取模块201、上采样模块202、定位模块203)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行图像目标定位设备的各种功能应用以及数据处理,即实现上述图像目标定位方法。
[0093] 存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据图像目标定位设备的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可进一步包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至图像目标定位设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0094] 输入装置32可用于接收输入的数字或字母信息,以及产生与图像目标定位设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括扬声器等音频输出设备。
[0095] 上述图像目标定位设备包含图像目标定位装置,可以用于执行任意图像目标定位方法,具备相应的功能和有益效果。
[0096] 本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行如上述实施例提供的图像目标定位方法。
[0097] 当然,本申请实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的图像目标定位方法中的相关操作。
[0098] 通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
[0099] 注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。