基于知识嵌入图卷积网络的双人交互识别方法转让专利

申请号 : CN201910967740.5

文献号 : CN110751072B

文献日 : 2020-12-08

本发明公开了一种基于知识嵌入图卷积网络的双人交互识别方法，主要解决现有技术忽视双人关联而不能提取双人交互特征，以及双人交互识别准确率差的问题。其实现方案为：1)设计知识给定图建立交互双人的骨架点之间的直接连接；2)设计知识学习图，并自适应地建立骨架点之间连接；3)构建可利用不同图之间的互补性的知识嵌入图卷积块；4)将10个知识嵌入图卷积块、一个全局池化层和一个全连接层依次连接构成知识嵌入图卷积网络；5)训练知识嵌入图卷积网络得到最优模型；6)将双人骨架序列输入最优模型识别出双人交互行为。本发明提高了双人交互行为识别的准确率，可用于视频检索，人机交互以及视频理解。

1.一种基于知识嵌入图卷积网络的双人交互识别方法，其特征在于，包括如下：(1)设计知识给定图：

(1a)选定某一类别交互行为，确定交互双方骨架的交互区域J1和J2，对J1和J2进行笛卡尔积，得到交互连接集合Ic；

(1b)对于选定类别的每个视频，先计算Ic中每个交互连接的端点在相邻两帧之间的距离变化，再对整个视频中所有相邻视频帧的距离变化绝对值求和，并将对应最大距离变化和的连接作为这个视频的候选连接；

(1c)统计选定类别所有视频的候选连接出现的频数，挑选前n个候选连接作为该选定类别的判别性连接；

(1d)对需要识别的所有交互类别重复(1a)-(1c)的操作，将所有类别的判别性连接取并集，得到知识给定图的所有边连接，并将所有双人骨架点作为顶点与其图边连接得到知识给定图；

(2)设计知识学习图：

(2a)将维度为Cin×T×J的骨架特征图重新排列得到维度为CinT×J的张量，并使用卷积核大小为1的卷积层将排列后的张量变换为维度为Cf×J的张量，其中Cin代表特征图的通道数，T代表输入视频的帧数，J代表双人骨架点的数目，Cf代表一个骨架点对应特征的维度；

(2b)计算任意两个骨架点的Cf维向量内积作为这两个骨架点的相似性，根据相似性的值确定这两个骨架点是否连接以及连接的强度，得到知识学习图；

(3)构建知识嵌入图卷积块：

(3a)构建空间卷积，即先将知识给定图、知识学习图和已有根据人体骨头构建的图用邻接矩阵表示，并分别与维度为Cin×T×J的骨架特征图进行矩阵相乘，再将矩阵相乘结果依次经过卷积层和修正线性单元ReLU得到三个输出特征图；再对这三个输出特征图进行求和操作；

(3b)构建由卷积层和修正线性单元ReLU依次连接组成的时间卷积；

(3c)将空间卷积和时间卷积依次连接构成知识嵌入图卷积块；

(4)将10个知识嵌入图卷积块，一个全局平均池化层和一个全连接层依次连接，构成知识嵌入图卷积网络；

(5)训练知识嵌入图卷积网络：

(5a)通过互联网下载三维骨架数据，选择其中的双人交互类别数据作为数据集，该数据集中的每个骨架样本包括骨架点的坐标信息和该样本对应的交互行为标签；

(5b)以2：1的比例将数据集划分为训练集和测试集；将训练集的数据输入到知识嵌入图卷积网络中，用梯度下降法更新知识嵌入图卷积网络，得到训练好的知识嵌入图卷积网络；

(6)识别双人交互行为：

(6a)使用相机采集一个RGB图像序列，每张图像均含有待识别的双人交互行为；

(6b)利用骨架姿态估计工具，在RGB图像序列中提取双人骨架序列，每个双人骨架包含

50个骨架点以及每个骨架点所处位置对应的三维坐标；

(6c)将双人骨架序列输入到训练好的知识嵌入图卷积网络，输出双人交互识别结果。

2.根据权利要求1所述的方法，其特征在于，(4)构成的知识嵌入图卷积网络，其参数设置如下：所述10个知识嵌入图卷积块，其空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核大小均设置为9×1，时间卷积步长依次设为1，1，1，1，2，1，1，2，1，1，每个卷积块的空间和时间卷积核数量相同，依次设置为64，64，64，64，128，128，128，256，256，256；

所述全连接层，其输出神经元个数设置为需要识别的行为类别总数。

3.根据权利要求1所述的方法，其特征在于，(5b)中用梯度下降法更新知识嵌入图卷积网络的各层参数，实现如下：(5b1)将知识嵌入图卷积网络的学习率α设置为0.003，迭代次数设置为60000，每次迭代在训练集中选择骨架样本数目设置为32；

(5b2)对于每次迭代，根据所选骨架样本中双人交互类别的标签值与知识嵌入图卷积网络的输出值计算网络参数的梯度值并利用下式，迭代更新知识嵌入图卷积网络的各层参数：其中，表示更新后的知识嵌入图卷积网络的参数值，θ表示知识嵌入图卷积网络更新前的参数值；

(5b3)当迭代次数达到60000，停止对参数的更新，得到训练好的知识嵌入图卷积网络。

基于知识嵌入图卷积网络的双人交互识别方法

技术领域

[0001] 本发明属于视频处理技术领域，更进一步涉及一种双人交互识别方法，可用于视频检索，人机交互以及视频理解。

背景技术

[0002] 双人交互识别可以利用多种不同的模态，如红绿蓝色彩模式图像RGB，深度和骨架。骨架模态与RGB、深度两种模态相比，具有存储量少，对环境因素的变化鲁棒性较强的特点，并且骨架数据是对人体特征的高度抽象，可以很好适用于双人交互识别。目前骨架模态的双人行为识别方法主要基于循环神经网络，卷积神经网络和图卷积网络。基于循环神经网络和卷积神经网络的方法把原始的骨架数据转换为网格状数据输入网络。上述处理方式破坏了骨架的结构，不能完全利用骨架数据的信息。而基于图卷积网络的方法可以直接处理骨架这种非规则数据。

[0003] Sijie Yan在其发表的论文“Spatial Temporal Graph Convolutional Networks for Skeleton-based Action Recognition”(Thirty-Second AAAI Conference on Artificial Intelligence(AAAI),2018)中提出了一种用于行为识别的时空图卷积方法。
该方法将骨架数据构造为骨架图结构，骨架图的顶点是骨架点，边是按照人体自然连接的骨头。尽管时空图卷积方法利用了骨架数据的结构信息，但是仍然存在两个限制：1)由于构造的骨架图把人体的骨头作为边来建立连接关系，忽略了交互的两个人之间的骨架点的关联，因此不能保证这个骨架图对于双人交互识别是最有效的；2)由于预定义的骨架图是固定的，因此不能保证适合所有双人交互行为，比如对于“握手”行为，建立两个人的手的图连接是很重要的，但是这个连接不适合“踢人”行为。

发明内容

[0004] 本发明的目的在于提出一种基于知识嵌入图卷积网络的双人交互识别方法，以解决现有方法中根据人体自然连接构建骨架图，忽略交互的两个人之间的骨架点的关联，不能保证适合所有双人交互行为，且识别效果差的问题。

[0005] 为实现上述目的，本发明的技术方案包括如下步骤：

[0006] (1)设计知识给定图：

[0007] (1a)选定某一类别交互行为，确定交互双方骨架的交互区域J1和J2，对J1和J2进行笛卡尔积，得到交互连接集合Ic；

[0008] (1b)对于选定类别的每个视频，先计算Ic中每个交互连接的端点在相邻两帧之间的距离变化，再对整个视频中所有相邻视频帧的距离变化绝对值求和，并将对应最大距离变化和的连接作为这个视频的候选连接；

[0009] (1c)统计选定类别所有视频的候选连接出现的频数，挑选前n个候选连接作为该类的判别性连接；

[0010] (1d)对需要识别的所有交互类别重复(1a)-(1c)的操作，将所有类别的判别性连接取并集，得到知识给定图的所有边，并将所有双人骨架点作为顶点与其边得到知识给定图；

[0011] (2)设计知识学习图：

[0012] (2a)将维度为Cin×T×J的骨架特征图重新排列得到维度为CinT×J的张量，并使用卷积核大小为1的卷积层将排列后的张量变换为维度为Cf×J的张量，其中Cin代表特征图的通道数，T代表输入视频的帧数，J代表双人骨架点的数目，Cf代表一个骨架点对应特征的维度；

[0013] (2b)计算任意两个骨架点的Cf维向量内积作为这两个骨架点的相似性，根据相似性的值确定这两个骨架点是否连接以及连接的强度，得到知识学习图；

[0014] (3)构建知识嵌入图卷积块：

[0015] (3a)构建空间卷积，即先将知识给定图、知识学习图和已有根据人体骨头构建的图用邻接矩阵表示，并分别与维度为Cin×T×J的骨架特征图进行矩阵相乘，再将矩阵相乘结果依次经过卷积层和修正线性单元ReLU得到三个输出特征图；再对这三个输出特征图进行求和操作；

[0016] (3b)构建由卷积层和修正线性单元ReLU依次连接组成的时间卷积；

[0017] (3c)将空间卷积和时间卷积依次连接构成知识嵌入图卷积块；

[0018] (4)将10个知识嵌入图卷积块，一个全局平均池化层和一个全连接层依次连接，构成知识嵌入图卷积网络；

[0019] (5)训练知识嵌入图卷积网络：

[0020] (5a)在网址下载NTU数据集的三维骨架数据，选择其中的双人交互类别数据作为数据集，该数据集中的每个骨架样本包括骨架点的坐标信息和该样本对应的交互行为标签；

[0021] (5b)以2：1的比例将数据集划分为训练集和测试集；将训练集的数据输入到知识嵌入图卷积网络中，用梯度下降法更新知识嵌入图卷积网络，得到训练好的知识嵌入图卷积网络；

[0022] (6)识别双人交互行为：

[0023] (6a)使用相机采集一个RGB图像序列，每张图像均含有待识别的双人交互行为；

[0024] (6b)利用骨架姿态估计工具，在RGB图像序列中提取双人骨架序列，每个双人骨架包含50个骨架点以及每个骨架点所处位置对应的三维坐标；

[0025] (6c)将双人骨架序列输入到训练好的知识嵌入图卷积网络，输出双人交互识别结果。

[0026] 本发明与现有技术相比，具有以下优点：

[0027] 第一，本发明设计了知识给定图和知识学习图，其中知识给定图建立了交互双人的骨架点之间的直接连接，克服了已有根据人体骨头构建的图忽视双人关联而不能提取双人交互特征的缺点；知识学习图以数据驱动的方式自适应地建立骨架点之间的连接，解决了预定义骨架图不适合所有双人交互行为的问题；

[0028] 第二，本发明构建了知识嵌入图卷积网络，利用知识给定图、知识学习图和已有根据人体骨头构建的图之间的互补性，使得网络学习到更具判别性的双人交互特征，提高了双人交互识别的准确率。

附图说明

[0029] 图1为本发明的流程图。

[0030] 具体实施方法

[0031] 下面结合附图对本发明进行详细说明。

[0032] 本实施例针对双人交互识别任务先设计知识给定图和知识学习图，以用于建立骨架点间更丰富的连接；然后构建了知识嵌入图卷积块来利用知识给定图、知识学习图和已有根据人体骨头构建的图之间的互补性，再构建知识嵌入图卷积网络，之后训练知识嵌入图卷积网络并对双人交互行为进行识别。

[0033] 参照图1，对本发明的实现步骤做进一步的描述。

[0034] 步骤1，设计知识给定图。

[0035] 1.1)设双人交互行为的类别包括“拳打”，“踢人”，“推人”，“拍背”，“用手指”，“拥抱”，“递东西”，“掏口袋”，“握手”，“靠近”和“远离”；

[0036] 1.2)任选某一类别交互行为，确定交互双方骨架的交互区域J1和J2，对J1和J2进行笛卡尔积，得到交互连接集合Ic；

[0037] 1.3)对于选定类别的每个视频，先计算Ic中每个交互连接的端点在相邻两帧之间的距离变化，再对整个视频中所有相邻视频帧的距离变化绝对值求和，并将对应最大距离变化和的连接作为这个视频的候选连接；

[0038] 1.4)统计选定类别所有视频的候选连接出现的频数，挑选前n个候选连接作为该类的判别性连接；

[0039] 1.5)对所有交互类别重复1.2)-1.4)，将所有类别的判别性连接取并集，得到知识给定图的所有边连接，并将所有骨架点作为顶点与其边连接得到知识给定图。

[0040] 步骤2：设计知识学习图。

[0041] 2.1)将维度为Cin×T×J的骨架特征图重新排列得到维度为CinT×J的张量，并使用卷积核大小为1的卷积层将排列后的张量变换为维度为Cf×J的张量，其中Cin代表特征图的通道数，T代表输入视频的帧数，J代表双人骨架点的数目，Cf代表一个骨架点对应特征的维度；

[0042] 2.2)任选一个骨架点的Cf维向量与对应所有双人骨架点的Cf×J的张量进行矩阵相乘操作，得到所选骨架点与所有骨架点的相似性向量，并进行归一化操作得到归一化相似性向量；

[0043] 2.3)根据归一化相似性向量确定骨架点之间是否有边连接以及连接强度；

[0044] 如果该向量某一维度值大于0.1，则将维度对应骨架点与所选骨架点的连接作为知识学习图的一条边连接且连接强度为维度值；否则，维度对应骨架点与所选骨架点之间没有边连接；

[0045] 2.4)对所有的骨架点重复操作2.2)和2.3)，从而得到知识学习图的所有边连接，并将所有骨架点作为顶点与其边连接得到知识学习图。

[0046] 步骤3：构建知识嵌入图卷积块。

[0047] 3.1)构建空间卷积：

[0048] 3.1.1)先将知识给定图、知识学习图和已有根据人体骨头构建的图用邻接矩阵表示，并分别与维度为Cin×T×J的骨架特征图进行矩阵相乘，得到维度为Cin×T×J的新张量；

[0049] 3.1.2)将矩阵相乘结果依次经过卷积层和修正线性单元ReLU得到三个输出特征图，输出特征图维度均为Cout×T×J，其中Cout为输出特征图的维度；

[0050] 3.1.3)对这三个输出特征图进行求和操作，得到空间卷积的输出；

[0051] 3.2)构建由卷积层和修正线性单元ReLU依次连接组成的时间卷积；

[0052] 3.3)将空间卷积和时间卷积依次连接构成知识嵌入图卷积块。

[0053] 步骤4：构建知识嵌入图卷积网络。

[0054] 4.1)设置网络结构：

[0055] 将10个知识嵌入图卷积块，一个全局平均池化层和一个全连接层依次连接，构成知识嵌入图卷积网络结构；

[0056] 4.2)设置参数：

[0057] 所述10个知识嵌入图卷积块，其空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核大小均设置为9×1，时间卷积步长依次设为1，1，1，1，2，1，1，2，1，1，每个卷积块的空间和时间卷积核数量相同，依次设置为64，64，64，64，128，128，128，256，256，256；

[0058] 所述全连接层，其输出神经元个数设置为需要识别的行为类别总数。

[0059] 步骤5：训练知识嵌入图卷积网络。

[0060] 5.1)在公开网址下载三维骨架数据，本实例选择NTU数据集中的双人交互类别数据作为数据集，网址为http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp；该数据集中双人交互行为类别包括“拳打”，“踢人”，“推人”，“拍背”，“用手指”，“拥抱”，“递东西”，“掏口袋”，“握手”，“靠近”和“远离”；数据集中每个骨架样本包括骨架点的坐标信息和该样本对应的交互行为标签；

[0061] 5.2)以2：1的比例将数据集划分为训练集和测试集；将训练集的数据输入到知识嵌入图卷积网络中，用梯度下降法迭代更新知识嵌入图卷积网络：

[0062] 5.2.1)将学习率α设置为0.003，迭代次数设置为60000，每次迭代在训练集中选择骨架样本数目设置为32；

[0063] 5.2.2)设网络参数维度为N，根据所选骨架样本中双人交互类别的标签值与知识嵌入图卷积网络的输出值计算网络参数维度为N的梯度向量▽J，利用所求梯度向量对网络参数进行更新，公式如下：

[0064]

[0065] 其中，表示更新后的N维网络参数，θ表示更新前的N维网络参数；

[0066] 5.2.3)判断迭代次数是否达到60000；若是，则停止对参数的更新，得到训练好的知识嵌入图卷积网络；否则，重复操作5.2.2)，直到迭代次数达到60000。

[0067] 步骤6：识别双人交互行为。

[0068] 6.1)使用相机采集一个RGB视频，视频中每张图像均含有待识别的双人交互行为；

[0069] 6.2)利用骨架姿态估计工具，对视频中每张图像提取双人交互行为的骨架，用所有图像的骨架构成双人骨架序列，其中每个双人骨架包含50个骨架点以及每个骨架点所处位置对应的三维坐标；

[0070] 6.3)将双人骨架序列输入到训练好的知识嵌入图卷积网络，输出双人交互行为类别。

[0071] 本发明的效果可通过仿真实例进一步说明：

[0072] 利用5.2)中对数据集划分得到的测试集说明发明效果，测试集共包含3000个样本，将测试集中的每个数据样本输入到训练好的知识嵌入图卷积网络得到对该样本的分类结果；

[0073] 统计测试集中样本分类结果与标签相同的样本数目即分类正确样本数目，分类正确样本数目为2829，并计算与测试集样本总数的比值得到双人交互识别的准确率A：

[0074]

[0075] 从仿真结果表明得出，本发明具有双人识别准确率高的优点。

基于知识嵌入图卷积网络的双人交互识别方法转让专利

申请号 : CN201910967740.5

文献号 : CN110751072B

文献日 : 2020-12-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 谢雪梅 , 潘庆哲 , 曹玉晗 , 李佳楠 , 赵至夫 , 石光明

申请人 : 西安电子科技大学

摘要 :

权利要求 :

说明书 :

基于知识嵌入图卷积网络的双人交互识别方法

技术领域

背景技术

发明内容

附图说明