一种基于人物关系建模的动作识别方法转让专利

申请号 : CN202010531062.0

文献号 : CN111797705A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 梁爽马文韬储港谢驰

申请人 : 同济大学

摘要 :

本发明涉及一种基于人物关系建模的动作识别方法,包括以下步骤:1)利用卷积神经网络检测待识别图像中所有的人体包围盒 和物体包围盒 并提取人体特征向量 和物体特征向量 2)根据人体和物体的空间位置、人体特征向量和物体特征向量,分别计算人-物关系特征fho(m)和物-人关系特征foh(n);3)利用人-物关系特征fho(m)和物-人关系特征foh(n)对人体特征向量 和物体特征向量 增强;4)融合增强后的人体特征向量 和物体特征向量 计算得到各类别动作的概率,完成动作识别,与现有技术相比,本发明具有动作识别精度高等优点。

权利要求 :

1.一种基于人物关系建模的动作识别方法,其特征在于,包括以下步骤:

1)利用卷积神经网络检测待识别图像中所有的人体包围盒 和物体包围盒并提取人体特征向量 和物体特征向量

2)根据人体和物体的空间位置、人体特征向量和物体特征向量,分别计算人-物关系特征fho(m)和物-人关系特征foh(n);

3)利用人-物关系特征fho(m)和物-人关系特征foh(n)对人体特征向量 和物体特征向量 增强;

4)融合增强后的人体特征向量 和物体特征向量 计算得到各类别动作的概率,完成动作识别。

2.根据权利要求1所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的步骤2)具体包括:

201)根据人体包围盒 和物体包围盒 计算人和物体间的空间位置关系权重

202)根据人体特征向量 和物体特征向量 计算人和物体间的特征关系权重

203)根据空间位置关系权重 和特征关系权重 计算人人和物体间的最终关系权重

204)根据最终关系权重 分别计算人-物关系特征fho(m)和物-人关系特征foh(n),所述的人-物关系特征fho(m)为第m个人和整个物体集合的关系特征,所述的物-人关系特征foh(n)为第n个物体和整个人的集合的关系特征记作foh(n)。

3.根据权利要求2所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的最终关系权重 的计算公式为:其中, 为第m个人和第n个物体间的特征关系权重, 为第m个人和第n个物体间的空间位置关系权重。

4.根据权利要求3所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的特征关系权重 的计算公式为:其中,dot(·)代表矩阵间点乘操作,WQ和WK均为矩阵,分别用于将输入的人体特征向量和物体特征向量 映射到子空间,dk为映射后的特征维度;

所述的空间位置关系权重 的计算公式为:

其中,fc(·)表示一个全连接层,嵌入函数εG为正弦函数,用于将人体包围盒bh和物体包围盒bo嵌入至高维空间。

5.根据权利要求2或3所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的人-物关系特征fho(m)的计算公式为:所述的物-人关系特征foh(n)的计算公式为:

其中, 和 为可学习权重,分别用于对物体特征向量 和人体特征向量 进行变换,fho(m)为经过 变换后所有物体特征向量 的加权和,foh(n)为经过 变换后所有人体特征向量 的加权和。

6.根据权利要求5所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的利用人-物关系特征fho(m)和物-人关系特征foh(n)对人体特征向量 和物体特征向量增强的具体公式为:其中,Nr表示人-物关系特征fho(m)或物-人关系特征foh(n)的数量,Concat[·]表示将Nr个输出的人-物关系特征fho(m)或物-人关系特征foh(n)连接起来。

7.根据权利要求1所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的步骤4)具体包括:

401)对增强后的人体特征向量 和物体特征向量 分别使用一层全连接层做分类器,计算得到所有动作类别的分类得分 其中,A是动作类别的数量, 表示第a个类别上的人体特征得分, 表示第a个类别上的物体特征得分;

402)利用得分融合公式,融合人体特征得分 和物体特征得分 得到待识别图像中每个人进行各动作类别的最终分类得分;

403)使用sigmoid函数将每各动作类别的得分转换为进行该动作概率,得到最终的动作识别结果。

8.根据权利要求7所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的得分融合公式为:其中, 表示第m个人在第a个类别上的最终分类得分,N为物体特征得分的个数,max{·}用于选择所有的N个物体特征得分 中的最高。

9.根据权利要求8所述的一种基于人物关系建模的动作识别方法,其特征在于,该方法在训练时的损失函数Loss的表达式为:其中, 为第m个人在第a个类别上的最终分类得分,ya表示该人是否进行类别a的动作,若是,则其值为1,反则其值为0,w为平衡数据集中正负样本数量的权重,根据不同数据集进行设置,其值默认为100。

10.根据权利要求1所述的一种基于人物关系建模的动作识别方法,其特征在于,所述的步骤1)具体包括:

101)使用在公开数据集上预训练的目标检测网络,检测输入图像中所有人体包围盒和物体包围盒 其中,M为人体包围盒的数量,N为物体包围盒的数量;

102)使用卷积神经网络,提取带识别图像的图像级别的特征图;

103)使用RoI池化,根据人体包围盒 和物体包围盒 在图像级别特征图上分别提取人体的特征向量 和物体的特征向量

说明书 :

一种基于人物关系建模的动作识别方法

技术领域

[0001] 本发明涉及计算机视觉、动作识别技术领域,尤其是涉及一种基于人物关系建模的动作识别方法。

背景技术

[0002] 动作识别,其目的在于使计算机能够理解图像和视频等中人所进行的各种动作。其不仅是计算机视觉领域的基础研究课题,还具备较高的应用价值,直接参与至智能安防、智能医疗、智能交通等各种人工智能系统中。
[0003] 对于动作识别任务来说,要识别的动作不仅包括类似于跑、跳、站这类基本的人体自身动作,还包括牵扯到人周围物体的各种交互动作。为了精确地识别这些动作,除了要提取物体信息以外,还要建模并利用人和物体间的关系信息。
[0004] 传统方法主要依赖于人工设计的特征,并且很多方法都使用了图模型(Graphical Model)对人物关系进行建模。如,Yao等人提出用于识别人和物体间交互动作的图模型。他们对物体与人体部位之间的空间关系以及物体的依赖关系及其相应的图像特征进行了建模。Perst等人使用四种不同空间关系去建模人和物体间交互动作。这些关系包括:物体与人类之间的相对尺度差异、物体与人之间的欧氏距离、物体与人的重叠区域、物体与人之间的相对位置。
[0005] 近年来,使用深度学习的方法在各公开数据集上取得了远超传统方法的结果,逐渐成为动作识别领域的主流。不同于使用人工设计的特征,深度学习方法使用卷积神经网络(CNN)去自动地提取特征用于动作分类。如,Gkioxari等人使用选择性搜索(Selective Search)得到物体位置信息后,针对每一个物体都使用VGG-16网络预测其动作的得分,最后直接将物体的分数与人的分数相加作为最终结果。
[0006] 尽管在早期基于人工特征的方法里有利用到人物关系,但是基于深度学习的动作识别方法还没有利用到人物关系,导致采用深度学习进行动作识别的精度较低,无法满足应用的要求,这可能是因为卷积神经网络接受的是结构化的输入,很难适应不定数量的人体和物体的输入并对其中关系进行建模。

发明内容

[0007] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高识别精确性的基于人物关系建模的动作识别方法。
[0008] 本发明的目的可以通过以下技术方案来实现:
[0009] 一种基于人物关系建模的动作识别方法,包括以下步骤:
[0010] 1)利用卷积神经网络检测待识别图像中所有的人体包围盒 和物体包围盒 并提取人体特征向量 和物体特征向量
[0011] 2)根据人体和物体的空间位置、人体特征向量和物体特征向量,分别计算人-物关系特征fho(m)和物-人关系特征foh(n);
[0012] 3)利用人-物关系特征fho(m)和物-人关系特征foh(n)对人体特征向量 和物体特征向量 增强;
[0013] 4)融合增强后的人体特征向量 和物体特征向量 计算得到各类别动作的概率,完成动作识别。
[0014] 进一步地,所述的步骤1)具体包括:
[0015] 101)使用在公开数据集上预训练的目标检测网络,检测输入图像中所有人体包围盒 和物体包围盒 其中,M为人体包围盒的数量,N为物体包围盒的数量;
[0016] 102)使用卷积神经网络,提取带识别图像的图像级别的特征图;
[0017] 103)使用RoI池化,根据人体包围盒 和物体包围盒 在图像级别特征图上分别提取人体的特征向量 和物体的特征向量
[0018] 进一步地,所述的步骤2)具体包括:
[0019] 201)根据人体包围盒 和物体包围盒 计算人和物体间的空间位置关系权重
[0020] 202)根据人体特征向量 和物体特征向量 计算人和物体间的特征关系权重
[0021] 203)根据空间位置关系权重 和特征关系权重 计算人人和物体间的最终关系权重
[0022] 204)根据最终关系权重 分别计算人-物关系特征fho(m)和物-人关系特征foh(n),所述的人-物关系特征fho(m)为第m个人和整个物体集合的关系特征,所述的物-人关系特征foh(n)为第n个物体和整个人的集合的关系特征记作foh(n)。
[0023] 进一步优选地,所述的最终关系权重 的计算公式为:
[0024]
[0025] 其中, 为第m个人和第n个物体间的特征关系权重, 为第m个人和第n个物体间的空间位置关系权重。
[0026] 进一步优选地,所述的特征关系权重 的计算公式为:
[0027]
[0028] 其中,dot(·)代表矩阵间点乘操作,WQ和WK均为矩阵,分别用于将输入的人体特征向量 和物体特征向量 映射到子空间,dk为映射后的特征维度;
[0029] 所述的空间位置关系权重 的计算公式为:
[0030]
[0031] 其中,fc(·)表示一个全连接层,嵌入函数εG为正弦函数,用于将人体包围盒bh和物体包围盒bo嵌入至高维空间。
[0032] 进一步优选地,所述的人-物关系特征fho(m)的计算公式为:
[0033]
[0034] 所述的物-人关系特征foh(n)的计算公式为:
[0035]
[0036] 其中, 和 为可学习权重,分别用于对物体特征向量 和人体特征向量进行变换,fho(m)为经过 变换后所有物体特征向量 的加权和,foh(n)为经过变换后所有人体特征向量 的加权和。
[0037] 更进一步地,所述的利用人-物关系特征fho(m)和物-人关系特征foh(n)对人体特征向量 和物体特征向量 增强的具体公式为:
[0038]
[0039]
[0040] 其中,Nr表示人-物关系特征fho(m)或物-人关系特征foh(n)的数量,Concat[·]表示将Nr个输出的人-物关系特征fho(m)或物-人关系特征foh(n)连接起来。
[0041] 进一步地,所述的步骤4)具体包括:
[0042] 401)对增强后的人体特征向量 和物体特征向量 分别使用一层全连接层做分类器,计算得到所有动作类别的分类得分 其中,A是动作类别的数量, 表示第a个类别上的人体特征得分, 表示第a个类别上的物体特征得分;
[0043] 402)利用得分融合公式,融合人体特征得分 和物体特征得分 得到待识别图像中每个人进行各动作类别的最终分类得分;
[0044] 403)使用sigmoid函数将每各动作类别的得分转换为进行该动作概率,得到最终的动作识别结果。
[0045] 进一步优选地,所述的得分融合公式为:
[0046]
[0047] 其中, 表示第m个人在第a个类别上的最终分类得分,N为物体特征得分的个数,max{·}用于选择所有的N个物体特征得分 中的最高。
[0048] 优选地,该方法在训练时的损失函数Loss的表达式为:
[0049]
[0050] 其中, 为第m个人在第a个类别上的最终分类得分,ya表示该人是否进行类别a的动作,若是,则其值为1,反则其值为0,w为平衡数据集中正负样本数量的权重,根据不同数据集进行设置,其值默认为100。
[0051] 与现有技术相比,本发明具有以下优点:
[0052] 1)本发明通过提取人体特征向量 和物体特征向量 并计算人-物关系特征fho(m)和物-人关系特征foh(n),同时考虑到人和物体间外观特征关系和空间位置关系,避免了无关物体信息干扰动作识别,提高了识别的精度;
[0053] 2)整个人物关系建模的流程中,本发明并不需要得知人或者物体数量,即M和N的具体的值,这十分适用于动作识别这类任务中,解决了深度学习动作识别中很难适应不同输入数据的人和物体数量各不相同且无法确定的情况;
[0054] 3)本发明通过计算人-物关系特征fho(m)和物-人关系特征foh(n)并利用其对人体特征向量 和物体特征向量 进行增强,最终融合计算得到每个人进行各动作类别的最终分类得分,合理对人和物体间的关系进行建模,并且经过在三个被广泛使用的公开标准数据集(HICO数据集、Stanford 40数据集和VOC 2012数据集)上的实验,可以验证本发明动作识别方法的识别精度优于所有的现有方法。

附图说明

[0055] 图1为本发明提供的方法流程图;
[0056] 图2为本发明整个框架的工作流程示意图;
[0057] 图3为本发明具体的人物关系计算流程示意图。

具体实施方式

[0058] 下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0059] 实施例
[0060] 如图1所示,本发明提供一种基于人物关系建模的动作识别方法,本发明最主要的目的就是根据人和物体的空间位置信息和外观特征信息去建模人和物体间关系,根据关系紧密程度,筛选物体特征,以便更精确地识别人物动作。本发明主要包含以下四个步骤:
[0061] 步骤S1:利用卷积神经网络,检测出待识别的图像中所有人体和物体的空间位置,并提取出每一个人体和物体的特征向量;
[0062] 步骤S2:根据人体和物体的空间位置及特征向量,计算人和物体间一一对应的关系权重,并得到人相对于物体和物体相对于人的两组关系特征;
[0063] 步骤S3:利用计算得到的两组关系特征,分别增强之前提取出的人体特征向量和物体特征向量;
[0064] 步骤S4:使用关系增强后的人体和物体特征,计算最终要识别的人进行各类别动作的概率,完成动作识别。
[0065] 上述方法步骤的具体内容可参见图2,图2中展示了本发明的整体工作流程示意图。接下来,本说明书同样分成这几部分对本方法加以详细说明。
[0066] 一、步骤S1的具体方法为:
[0067] (1)使用在公开的COCO数据集上预训练的Faster RCNN网络,对于本实施例中将要使用的每一张图像,检测出图像中所有的M个人体包围盒 和所有的N个物体包围盒单个包围盒的格式为一个四维向量(x,y,w,h),其中x和y为包围盒中心点坐标,w和h为包围盒的宽度和高度;
[0068] (2)使用在ImageNet数据集上预训练的ResNet-50卷积神经网络的前四个卷积块,提取输入图像的全图特征图;
[0069] (3)使用RoI Align池化层,根据先前检测到的人体包围盒和物体包围盒,在特征图上进一步提取出M个人体特征向量 和N个物体特征向量
[0070] 二、如图3所示,步骤S2的具体方法为:
[0071] (1)根据步骤S1中检测出的人体包围盒 和物体包围盒 计算人体和物体间空间位置关系权重 其计算公式为:
[0072]
[0073] 其中,fc(·)表示一个全连接层,嵌入函数εG使用正弦函数,将人体包围盒bh和物体包围盒bo嵌入至高维空间;
[0074] (2)根据步骤S1中提取出的人体特征向量 和物体特征向量 计算人体和物体间特征关系权重 其计算公式为:
[0075]
[0076] 其中,dot(·)代表矩阵间点乘操作,WQ和WK均为矩阵。这两个矩阵将输入的人体特征向量 和物体特征向量 分别映射到子空间,映射后的特征维度记为dk;
[0077] (3)根据计算出的空间位置关系权重 和特征关系权重 计算人体和物体间的最终关系权重 其计算公式为:
[0078]
[0079] 其中, 为第m个人和第n个物体间的特征关系权重, 为第m个人和第n个物体间的空间位置关系权重;
[0080] (4)根据最终关系权重 分别计算两组关系特征,经计算后的第m个人和整个物体集合的关系特征记作fho(m),简称为人-物特征;相应地,经计算后的第n个物体和整个人体集合的关系特征记作foh(n),简称为物-人特征,这两组关系特征的具体计算公式为:
[0081]
[0082]
[0083] 其中, 和 为可学习的权重,分别用于对物体特征和人体特征进行变换,fho(m)为经过 变换的所有物体特征的加权和;foh(n)为经过 变换的所有人体特征的加权和。
[0084] 三、如图3所示,步骤S3的具体方法为:
[0085] 在本实施例中,本发明共计算Nr=16次步骤S2,并将Nr个输出的人-物特征或物-人特征连接起来,然后将连接后的特征加回到输入的人体特征向量fh(m)或物体特征向量fo(n),从而将关系信息融入至后续的分类步骤中,具体公式如下:
[0086]
[0087]
[0088] 特别地,为了满足输入输出维度相等的条件,dk*Nr应该等于输入的人体特征向量fh和物体特征向量fo的维度。
[0089] 四、步骤S4的具体方法为:
[0090] (1)对增强后的人体特征和物体特征,分别使用一层全连接层做分类器,计算它们对所有动作类别的分类得分 其中A是动作类别的数量, 表示第a个类别上的人体特征得分, 表示第a个类别上的物体特征得分;
[0091] (2)融合人体特征得分和物体特征得分,得到图像中每个人进行各动作类别的最终分类得分,具体的得分融合公式为:
[0092]
[0093] 其中, 表示第m个人在第a个动作类别上的人体特征得分,max操作用于选择所有的N个物体中在该类别上得分最高的,也即是最相关的物体进行得分融合;
[0094] (3)使用sigmoid函数将各动作类别的最终分类得分转换为进行动作概率,作为最终的动作识别结果。
[0095] 本发明动作识别方法在训练阶段,损失函数Loss的表达式为:
[0096]
[0097] 其中, 为第m个人在第a个动作类别上的人体特征得分,ya表示该人是否进行类别a的动作,进行时ya的值为1反之为0,w为平衡数据集中正负样本数量的权重,根据不同数据集有不同设置,默认为100。
[0098] 为了支持以及验证本发明提出的动作识别方法性能,在三个被广泛使用的公开标准数据集上,采用平均精度(mAP)作为评价指标,将本方法同其它最新最前沿的动作识别方法进行了比较。
[0099] HICO数据集是目前最大的动作识别图像数据集,其在数据收集方面以物体为中心,对来自COCO数据集中的80个种类的物体从Flickr上单独收集图像,共计47774张,并按物体和人的动作划分到600个交互动作类别。Stanford 40Actions数据集共计包含有9532张图像,有40个动作类别,每类图像数量在180~300张之间,这些图像来源于Google和Bing搜索结果以及Flickr网站,这些动作类别从人的日常生活中选取,主要针对人物交互的动作,如,打伞、划船、刷牙等。PASCAL VOC 2012提供了一个用于动作分类的数据集,共有10种动作类别(跳跃、打电话、使用乐器、阅读、骑自行车、骑马、跑步、拍照、使用电脑、走路),并且将不进行以上任何一种动作的人标记为其它类别,作为负样本,共计有4588张图像包含6278个人体的动作。
[0100] 表1为HICO数据集上,本发明与其他现有动作识别算法精度的比较。
[0101] 表1 HICO数据集的测试集上识别准确率(%)对比
[0102]
[0103] 从表1中可看出,相较于ResNet-101网络,本实施例使用的ResNet-50基础网络性能更差,但即使在此种情况下,本发明提出的基于人物关系建模的动作识别方法的平均精度仍然高于现有最优方法2.7个百分点以上。
[0104] 表2为Stanford40数据集上,本发明与其他现有动作识别算法精度的比较。
[0105] 从表2中可看出,虽然在Stanford 40上现有方法已经取得了90%以上的精度,但本方法仍然可以进一步提高识别精度,相比于目前最优的同样采用ResNet-50的Part Action方法,本方法取得了1.9个百分点的提升。
[0106] 表2 Stanford 40数据集的测试集上识别准确率(%)对比
[0107]
[0108] 表3为VOC 2012数据集上,本发明与其他现有动作识别算法精度的比较。
[0109] 表3 VOC 2012数据集的验证集上识别准确率(%)对比
[0110]
[0111] 从表3中可看出,在VOC 2012数据集上,本方法也依然拥有优异的识别准确度,显著高于R*CNN等方法约2%。这三个数据集上的实施例共同说明了,本发明提出的一种基于人物关系建模的动作识别方法能够在不同数据集上稳定地取得出色的动作识别精度。
[0112] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。