一种实时的动作时序定位方法转让专利

申请号 : CN202111077388.1

文献号 : CN113537164B

文献日 : 2021-12-07

本发明提供了一种实时的动作时序定位方法，包括：从深度动作序列中逐帧跟踪人体关节点，计算关节运动信息，将这些运动信息组成一个按时间和关节序列排序的密集关节运动矩阵；在此密集关节运动矩阵的基础上，再通过双线性二次插值算法生成多个时序纬度统一的动作矩阵，使深度神经网络可对多个时间尺度的样本集进行训练；引入空间金字塔池化层代替经典卷积神经网络中的flatten层，以得到可以接受任意输入尺寸的改进后的卷积神经网络；使用长时优先时间探进策略，用于定位连续行为视频中的动作。本发明能够解决现有技术动作识别方面的准确率和识别效率较低，无法做到实时检测的问题。

1.一种实时的动作时序定位方法，其特征在于，包括：从深度动作序列中逐帧跟踪人体关节点，计算关节运动信息，将这些运动信息组成一个按时间和关节序列排序的密集关节运动矩阵，该密集关节运动矩阵为三维矩阵；

在生成的密集关节运动矩阵的基础上，通过双线性二次插值算法生成多个时序纬度统一的动作矩阵，使深度神经网络可对多个时间尺度的样本集进行训练；

引入空间金字塔池化层代替经典卷积神经网络中的flatten层，以得到可以接受任意输入尺寸的改进后的卷积神经网络，改进后的卷积神经网络在训练阶段能够接收不同尺寸的输入数据并共享权重，且在检测阶段，任意持续时间的动作都可以输入到改进后的卷积神经网络中进行分类；

使用长时优先时间探进策略，用于定位连续行为视频中的动作，所述长时优先时间探进策略在对人体行为视频进行探测时，通过改进后的卷积神经网络优先对相对较大的时间窗口内的动作进行探测，在得到的检测结果的置信度达不到阈值时，将时间窗口尺寸进行缩减，并再次探测，直到视频被检测完毕。

2.根据权利要求1所述的实时的动作时序定位方法，其特征在于，所述密集关节运动矩阵的表达式如下：

A=T×J×F

其中，A为动作序列矩阵，T为动作持续的帧数，J为动作者骨架采用的关节个数，F为每帧计算提取的特征个数。

3.根据权利要求1所述的实时的动作时序定位方法，其特征在于，所述空间金字塔池化层的输出尺寸如下：

其中，L为所述空间金字塔池化层的输出尺寸，Nf为特征图的数量，Pi表示所述空间金字塔池化层中使用的第i个池层。

4.根据权利要求1所述的实时的动作时序定位方法，其特征在于，所述改进后的卷积神经网络在训练阶段具有两种样本，分别为：用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本。

5.根据权利要求4所述的实时的动作时序定位方法，其特征在于，所述方法还包括：采用双线性二次插值算法对用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本长度进行统一。

6.根据权利要求1或5所述的实时的动作时序定位方法，其特征在于，所述双线性二次插值算法包括插值策略和隔帧抛弃策略。

一种实时的动作时序定位方法

技术领域

[0001] 本发明涉及动作时序定位技术领域，特别是涉及一种实时的动作时序定位方法。

背景技术

[0002] 人体动作识别（HAR）具有广泛的工业应用，如视频检索、视频摘要、虚拟现实和人机交互等。近年来，借助深度学习技术，HAR的准确率有所提高。然而，在实践中，人类行为视
频通常又长又复杂，并且包含多个不同的动作。基于此，动作时序定位（TAL）吸引了越来越
受到研究人员的关注，TAL旨在识别长而复杂的视频中每个动作的开始关键帧（SKF）和结束
关键帧（EKF），TAL主要回答两个问题：动作什么时候发生和结束、动作属于什么类别。

[0003] TAL的传统主流方法都是基于手工制作的特征，包括局部特征和全局特征。尺度不变特征变换（SIFT）特征、定向梯度直方图（HOG）特征以及人体轮廓和轮廓特征是最常用于
此目的的特征。所有这些基于特征的方法都遵循类似的处理方法。首先，在时间维度的帧中
检测兴趣点。然后，跟踪每个兴趣点的轨迹。最后，将所有兴趣点的轨迹以数学方式作为一
个整体进行描述，并将它们分为不同的类别。改进的密集轨迹（iDT）和支持向量机（SVM）算
法是当时最具代表性的描述符和分类器算法。

[0004] 虽然很多以“个性化改进 + iDT”为基本结构的方法都达到了最先进的性能，但不可否认手工制作的特征有一定的局限性，借助深度学习技术，尤其是卷积神经网络（CNN），
可以比以前更容易地提取深度特征。因此，包括HAR和TAL在内的许多任务的工作经历了巨
大的发展。基于2D‑CNN的方法已被用于从预处理的运动图像中学习判别特征，例如光流
(OF)特征、运动历史图像(MHI)、静态历史图像(SHIs)、运动能量图像(MEIs)和其他变体。这
些经典的运动图像可以很好地处理时间信息，并将来自多帧的信息压缩成具有统一尺寸的
运动图像。与2D‑CNN方法相比，基于3D‑CNN的方法提供了一种更简单的方法来处理时间信
息。这种方法总是在端到端框架中使用。然而，基于3D‑CNN的方法在长时间视频处理方面存
在局限性，因为它们对计算能力的需求很大。为了减少输入参数，在基于3D‑CNN或长短期记
忆(LSTM)的方法中普遍采用使用预训练2D‑CNN的方法。在单动作检测领域，目前新兴的方
法可以达到95%甚至更高的准确率。然而，这些方法仍然不是长时视频中TAL的最终解决方
案。

[0005] 由于人类的单一行为是由一系列动作组成的，因此将长时间视频分割成若干帧长度的片段，并将每个片段划分为不同的类别，是处理长时间视频TAL问题的最直接方法。这
种“先提出再分类”的方法被称为两阶段定位方法。提取高质量的时间建议是这种方法的核
心步骤。滑动窗口自然成为这一任务的典型代表方法。一般情况下，当连续滑动窗之间的重
叠足够高时，最终的TAL结果较好。然而，过高的滑动窗口重叠将导致难以承受的计算负荷。
与两阶段方法不同，单阶段方法同时处理提案和分类。另外，一些基于顺序决策过程的方法
也可以归为单阶段框架。一般来说，单阶段方法在效率上有优势，并且总是在端到端框架中
使用。从本质上讲，单阶段方法仍然遵循与两阶段方法相同的基本规则。它可以看作是两阶
段方法+融合算法。然而，现有技术中的单阶段TAL方法，在动作识别方面的准确率以及识别
效率均有待提高，且无法做到实时检测。

发明内容

[0006] 本发明的目的在于提出一种“一步式”的实时的动作时序定位方法，以解决现有技术动作识别方面的准确率和识别效率较低，且无法做到实时检测的问题。

[0007] 一种实时的动作时序定位方法，包括：

[0008] 从深度动作序列中逐帧跟踪人体关节点，计算关节运动信息，将这些运动信息组成一个按时间和关节序列排序的密集关节运动矩阵，该密集关节运动矩阵为三维矩阵；

[0009] 在生成的密集关节运动矩阵的基础上，通过双线性二次插值算法生成多个时序纬度统一的动作矩阵，使深度神经网络可对多个时间尺度的样本集进行训练；

[0010] 引入空间金字塔池化层代替经典卷积神经网络中的flatten层，以得到可以接受任意输入尺寸的改进后的卷积神经网络，改进后的卷积神经网络在训练阶段能够接收不同
尺寸的输入数据并共享权重，且在检测阶段，任意持续时间的动作都可以输入到改进后的
卷积神经网络中进行分类；

[0011] 使用长时优先时间探进策略，用于定位连续行为视频中的动作，所述长时优先时间探进策略在对人体行为视频进行探测时，通过改进后的卷积神经网络优先对相对较大的
时间窗口内的动作进行探测，在得到的检测结果的置信度达不到阈值时，将时间窗口尺寸
进行缩减，并再次探测，直到视频被检测完毕。

[0012] 根据本发明提供的实时的动作时序定位方法，具有以下有益效果：

[0013] 1）与主流运动图像相比，密集关节运动矩阵可以保留更多的运动特征，在细节表示上更精确；此外，密集关节运动矩阵还很好地解决了一定时间内因运动轨迹重叠造成的
时间信息丢失问题；

[0014] 2）相对于目前主流的“缩放”和“裁剪”两种归一化策略，基于双线性二次插值算法能够在对动作样本进行时间尺度归一化的同时，尽量小的降低运动信息的丢失；

[0015] 3）引入空间金字塔池化层，提出了一种对经典卷积神经网络进行多尺寸改造的普适性方法，改进后的卷积神经网络能够进行多尺寸学习，从不同尺寸的密集关节运动矩阵
中学习运动特征，也保障了深度神经网络能够进行多维度学习；

[0016] 4）相比现行主流的“时间锚点”和“滑动窗口”而言，采用长时优先时间探进策略，能够大大提高实现视频流探测的效率；

[0017] 5）将本发明与其他主流的方法进行实验评价，结果表明本发明的方法在动作识别方面具有较强的准确率和较高的精度，在动作时序定位方面，效率和准确率均远高于现有
主流方法，本发明能够用于实时监控；

[0018] 6）本文所提出的针对人体骨架和时序进行的样本生成算法，能够有效实现人体行为动作的复制和生成，降低了动作采集和标定成本，为深度神经网络的小样本学习提供了
有效途径。

[0019] 此外，根据本发明提供的实时的动作时序定位方法，还可以具有如下附加的技术特征：

[0020] 进一步的，所述密集关节运动矩阵的表达式如下：

[0021] A=T×J×F

[0022] 其中，A为动作序列矩阵，T为动作持续的帧数，J为动作者骨架采用的关节个数，F为每帧计算提取的特征个数。

[0023] 进一步的，所述空间金字塔池化层的输出尺寸如下：

[0024]

[0025] 其中，L为所述空间金字塔池化层的输出尺寸，Nf为特征图的数量，Pi表示所述空间金字塔池化层中使用的第i个池层。

[0026] 进一步的，所述改进后的卷积神经网络在训练阶段具有两种样本，分别为：用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本。

[0027] 进一步的，所述方法还包括：

[0028] 采用双线性二次插值算法对用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本长度进行统一。

[0029] 进一步的，所述双线性二次插值算法包括插值策略和隔帧抛弃策略。

附图说明

[0030] 图1是双线性二次插值算法的流程图；

[0031] 图2是长时优先时间探进策略的流程图。

具体实施方式

[0032] 为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不
同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本
发明的公开内容更加透彻全面。

[0033] 本发明的实施例提出一种实时的动作时序定位方法，包括步骤S1 S4。~

[0034] S1，从度动作序列中逐帧跟踪关节点，计算运动元素，将这些运动元素组成一个按时间和每个单独的关节排序的密集关节运动矩阵，该密集关节运动矩阵为三维矩阵。

[0035] 所述密集关节运动矩阵的表达式如下：

[0036] A=T×J×F

[0037] 其中，A为动作序列矩阵，T为动作持续的帧数，J为动作者骨架采用的关节个数，F为每帧计算提取的特征个数。

[0038] 将动作序列转换为满足卷积神经网络（CNN）输入要求的矩阵是所有基于CNN的HAR方法的关键步骤。具体实施时，可以采用Kinect v2.0传感器跟踪的人体骨骼中除拇指左右
关节外的其余23个关节构成运动矩阵。

[0039] 然后，这些运动图像被调整为统一的大小，并由CNN进行分类。运动图像特别有利于数据可视化。但是，由于彩色图像的每个通道(R、G或B)只能存储[0,255]范围内的整数
值，因此该运动图像的精度往往不足以满足对相似动作的识别要求。为了克服这一瓶颈，本
发明提出了具体上述表达式的密集关节运动矩阵（DJMM）。

[0040] 与运动图像相比，DJMM在数据存储方面没有限制(运动图像只有R、G和B通道存储关节运动数据)。因此，可以为每个关节存储更多的运动信息，提高预测的准确性。例如，每
个关节点在每一秒（1秒有30帧）提取15个运动特征。故，DJMM的大小为：帧数*关节点*特征
数。如：一个2秒的动作生成的三维矩阵大小为：60*23*15。

[0041] 从理论上讲，由于矩阵的灵活性，所有已知的经典特征都可以被采用。一旦采用DJMM，关键问题不是发现新特性，而是在实时效率和高精度之间找到平衡，这极大地简化了
HAR问题。

[0042] 此外，与运动轨迹图像相比，DJMM有效地解决了关节运动轨迹重叠时的时间信息丢失问题。两种不同的动作可以产生两幅几乎相同的轨迹运动图像。此外，DJMM的使用极大
地减少了输入参数的数量。

[0043] S2，在生成的密集关节运动矩阵的基础上，通过双线性二次插值算法生成时序统一的动作矩阵，用于多尺度训练。

[0044] 通过双线性二次插值算法（TMFAA）生成时序统一的动作矩阵的过程也成为数据增强，具体的，所述双线性二次插值算法包括插值策略和隔帧抛弃策略，由于卷积神经网络在
训练阶段只能够接收尺度统一的数据进行训练。所谓尺度统一，就是三维矩阵的尺度要统
一。而根据S1所述，矩阵的大小为N*23*15,N代表的是动作的持续时间（即：帧数），而每一个
动作，甚至相同的人做同一个动作也会出现时间上的不同。故，需要生成时序统一的动作矩
阵。例如：如果一个动作没有满60帧，就通过算法让其满60帧；一个动作超过了60帧，也通过
算法进行帧的抛弃，让其减少到60帧。这样，就可以将时间不同的各种动作形成归一化的多
种尺度，如：50帧归一化一批，60帧归一化一批，70帧归一化一批，以满足神经网络的训练要
求。

[0045] 双线性二次插值算法的具体流程图1所示，首先设置样本的统一时间尺度TN，然后从数据集中提取1个样本，设置样本的时间尺度为TS，再判断TS是否大于TN。若TS大于TN，则计
算t和r，t=TS/TN，r=TS%TN，每隔t帧抛弃1帧，然后随机抛弃r帧。若TS小于等于TN，则计算t和
r，t=TN/TS，r=TN%TS，每隔t帧插入1帧，然后随机插入r帧。最后能够将样本归一化为TN帧的新
样本。

[0046] 由于人类行为遵循线性进化模式，1帧大约只有1/30秒，因此插入或抛弃一些帧来拟合统一的时间长度是可行的。不同尺度的训练样本会影响模型识别不同大小目标的能
力，从而提高模型的准确率。为达到高精度的目的，可以预先选择两个或更多的刻度。这一
步在样本不足的训练阶段尤为重要。

[0047] 行动样品的标签是非常昂贵的，特别是危险行动样品。在大多数公共数据集中可用的动作样本数量相当少。例如UT‑KinectAction3D总共包含10个动作组和119个动作样
本，每个动作组只包含20个样本。MSRAction3D由20个作用组和567个作用样品组成，每个作
用组只包含27 30个样品。即使对于最大的3D动作数据集NTU‑RGB+D，每个动作组包含大约
~
900个样本，这不足以有效训练一个CNN。此外，在样本不足的情况下训练的CNN经常会出现
过拟合。而双线性二次插值算法生成时序统一的动作矩阵，能够有效避免过拟合。

[0048] S3，引入空间金字塔池化层代替传统的卷积神经网络中的扁平层，以得到改进后的卷积神经网络，改进后的卷积神经网络在训练阶段能够接收不同尺度的输入数据并共享
权重，且在检测阶段，任意持续时间的动作都可以输入到改进后的卷积神经网络中进行分
类。

[0049] 由于所有经典神经网络都只能接受和训练尺度一致的样本，而本发明通过引入空间金字塔池化层（spatial pyramid pooling，SPP），可将所有经典神经网络进行改造，使其
在使用过程中不受尺度限制。

[0050] 所述空间金字塔池化层的最终输出尺寸如下：

[0051]

[0052] 其中，L为所述空间金字塔池化层的输出尺寸，Nf为特征图的数量，Pi表示所述空间金字塔池化层中使用的第i个池层。以P =[(1,1)，(2,2)，(4,4)]为例，设SPP层之前的
feature map数为24;则SPP层的输出大小为

[0053] (1×1 + 2×2 + 4×4) × 24 = 21 × 24 = 504。

[0054] 此外，所述改进后的卷积神经网络在训练阶段具有两种样本，分别为：用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本。

[0055] 所述方法还包括：

[0056] 采用双线性二次插值算法对用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本长度进行统一。

[0057] 一旦平整层已被SPP层取代，CNN可以在上面训练不同尺度的样本共享权重，可信样本可以生成以避免过拟合问题。然而，在训练阶段，训练数据必须相同时间长度，即使CNN
可以接收输入任何比例的数据。

[0058] S4，使用长时优先时间探进策略，用于定位连续行为视频中的动作，所述长时优先时间探进策略在进行探测时，优先对窗口大小大于预设值的时间窗口进行探测。

[0059] TAL的最终目标是检测某一动作的SKF和EKF。目前主流的方法是“检测滑动窗口的动作→合并滑动窗口”。然而，考虑到一个复杂的人类动作可能是由几个简单动作组成的，
这种主流方法在时间维度定位复杂动作时可能效果不佳。换句话说，一个复杂的动作可能
会被错误地分成几个简单的动作。

[0060] TAL和中文文本分割有很多共同之处。第一，一个长的汉语单词是由几个短的汉语单词组成的，而一个复杂的人类动作是由几个简单的动作组成的。第二，在一个句子中，汉
字之间没有界限，在一个连续的人类行为视频中，动作之间也没有界限。第三，一个汉语句
子包含几个汉语单词，一个人类行为实例包含几个动作。基于以上3个关键的相似点，目前
为止在中文分词领域已经证明的最有效的算法对TAL有很大的参考价值。受中文文本分割
研究领域MMSeg算法的启发，本发明提出了一种新的窗口合并策略，称为长时优先时间探进
策略（LSF‑TD），这种长时优先时间探进策略在进行探测时，优先对窗口大小大于预设值的
时间窗口进行探测。在该策略中，有3个关键参数，即窗口大小(W)、子窗口数(N)和置信度
(T)，此外还有一个静态值5，表示最小的尝试帧数。

[0061] 本发明的长时优先时间探进策略的具体流程图2所示，首先初始化全局变量S=0，E=W，其中W代表固定的帧数（也即窗口大小），然后判断视频是否处理完毕，若否，则对“S+W”
个桢所包含的动作进行预测，并得到预测结果置信度：c。然后判断置信度是否大于阈值，若
置信度大于阈值，则设置(S+W)桢标签为所预测的结果动作，然后设置S=E+1，再设置E=W，并
循环对“S+W”个桢所包含的动作进行预测。若置信度不大于阈值，则判定当前预测时间总长
度是否大于5帧，若当前预测时间总长度大于5帧，则设置E=Ws=W/N，并循环对“S+W”个桢所
包含的动作进行预测。若当前预测时间总长度不大于5帧，则设置(S+W)桢标签为所预测的
结果动作。

[0062] 下面对本发明提供的方法进行实验评价

[0063] （1）实验评价总述

[0064] 采用TensorFlow 2.3 GPU版本和Keras进行实验评价。实验是在一台台式机上进行的，该台式机使用的是Nvidia GTX 1080 Ti GPU、Intel Core i7‑8700K 3.70 GHz处理
器和64 GB RAM，频率为3200 MHz。

[0065] 本发明提出的多尺度动作识别网络的效率和精度，以及长时优先时间探进策略的TAL精度，各项性能与最先进的方法进行了比较。结果表明，本发明的模型达到了具有竞争
力的准确性，并在效率方面优于其他方法。

[0066] 为了评估本发明的方法的有效性，实验在两个很小但有挑战性的数据集,即UTKinect‑Action3D数据集和佛罗伦萨的3d动作数据集，以及一个叫HanYue‑Action3D数据
集的镇定的数据集(以下分别称为UT‑3D、Florence‑3D HanYue‑3D)。与目前基于关节运动
轨迹图（JTM）的方法相比，本发明方法在准确性和时间效率方面具有竞争优势。特别是，
DJMM的使用可以将输入参数的数量至少减少一个数量级。

[0067] （2）数据集

[0068] 《Florence‑3D》是用Kinect相机拍摄的。它包括9个活动:挥手、用瓶子喝水、接电话、鼓掌、系紧鞋带、坐下来、站起来、看手表和鞠躬。在习得过程中，10名受试者被要求执行
上述动作2至3次。结果总共有215个活动样本，每个行动大约有20‑30个样本。在这个数据集
中，每个受试者记录了15个关节。

[0069] UT‑3D的视频是用一个固定的Kinect拍摄的。有10种动作类型:行走、坐下、站起来、捡起、携带、扔、推、拉、挥手、拍手。一共有10名受试者，每个受试者完成每个动作两次。
然而，在“携带”行动组中只有19个样本，因为其中一个样本的骨架信息未能捕获。每个受试
者记录20个关节，其中15个用于本发明的方法。

[0070] HanYue‑3D是一个自收集的数据集。它是用Kinect v2.0摄像头收集的。它包括15种简单的动作类型:打电话、喝酒、挥手、看手表、拍拍衣服上的灰尘、摔倒、推椅子、原地跳、
站起来、站着不动、站着拍掌、走、坐、坐着不动、拍掌。9名受试者被要求进行这15项活动3或
4次。记录Kinect v2.0传感器提供的所有25个关节的三维坐标位置。总共有413个样本，每
个动作类型由35‑37个样本代表。此外，为了TAL的目的，收集了4种复杂的行为类型。每个复
杂行为都由上述几个简单操作组成。这四个复杂的行为分别是“坐着→站着→拍拍衣服”、
“跳着→站着→跳着→挥手”、“走着→站着→跳着→挥手坐下”和“坐着→站着→站着→鼓
掌→跳着→挥手”。

[0071] （3）多尺度行为识别

[0072] 为了使本发明的模型在时间维度上能够识别任意大小的样本，对ZFNet进行了修改，通过微调隐藏层的参数，将flatten层替换为SPP层。

[0073] 在训练阶段，将Florence‑3D、UT‑3D和HanYue‑3D的每个样本统一为时间维度(S_T)上的3个尺度:TFlorence‑3D = {17,20,23}，TUT‑3D ={40,50,60}和THanYue‑3D ={50, 60, 70}。
对于表1中报告的所有实验，CNN的参数设置为相同的值，optimizer= ' sgd '， optimizer
的参数设置为默认值，batch‑size=64, epoch =100。随机选取90%的样本创建djmm并训练
提案模型，其余10%作为测试样本。

[0074] 表1不同比例尺组合的精度比较

[0075]

[0076] 从表1的统计数据可以得出，使用多尺度训练策略有助于CNN比单尺度训练学习更多的深度特征。此外，在测试阶段，由于新引入的SPP层可以将深度特征图在分类前转换成
固定的尺寸，因此目标样本不需要统一到一定的尺寸。即保留了测试样本的所有运动信息。
这些实验不仅证明了SPP策略比简单的裁剪/翘曲策略能保留更多的运动信息，也说明了本
发明的多尺度网络的简单性。

[0077] （4）关于小数据集学习能力的实验

[0078] 在时间定位中实现高精度的基础是动作识别的高精度。因此，确保CNN能够很好地训练，特别是在训练样本不足的情况下，是非常重要的。

[0079] 在这些实验中，我们采用UT‑3D、Florence‑3D和HanYue‑3D来评价本发明的数据增强方法的有效性。UT‑3D和Florence‑3D很少用于评价基于CNN的HAR方法，因为样本数量少，
不足以训练好CNN。通过比较不同培训策略下的培训过程，能够得出以下结论:

[0080] 第一，TMFAA是一种有效的时间标准化策略。使用TMFAA得到的精度曲线和损失曲线都比使用裁剪和缩放策略得到的精度曲线和损失曲线平滑得多。对于时间持续时间范围
大的动作样本，TMFAA的优势尤为明显。

[0081] 第二，TMFAA与多尺度策略的结合能够进一步提高模型的精度。虽然结合了TMFAA和多尺度策略的模型在Florence‑3D和HanYue‑3D上测试的实验精度与仅结合了TMFAA的模
型相同，但在UT‑3D数据集上添加了多尺度策略后，测试精度提高了5.27%。这是因为UT‑3D
样本的持续时间在5帧到114帧之间，比其他两个数据集的变化要大得多。这些结果也证明
了TMFAA比修剪和缩放策略能保留更多的运动信息。

[0082] 第三，本发明提出的数据增强方法有助于避免过拟合问题。一方面，模型在早期训练阶段趋于稳定，在训练过程中没有大的波动;另一方面，包括数据增强在内的组合策略在
准确率方面的测试结果最好，而仅对原始样本进行训练获得的其他测试准确率远低于训练
阶段观察到的准确率。以Florence‑3D组和HanYue‑3D组的棒为例，测试准确率分别达到
68.42%和67.74%，而训练阶段的准确率要高得多。这些结果有力地证明，对于所有3个小样
本数据集，在增强数据集上的训练很好地解决了过拟合问题。表2比较了动作检测精度的结
果，其中，现有技术1来自《Seidenari L, Varano V, Berretti S, et al. Recognizing
actions from depth cameras as weakly aligned multi‑partbag‑of‑poses. IEEE
Conference on Computer Vision and Pattern Recognition 2013. pp. 479‑485》，现有
技术2来自《Xia L, Chen C, Aggarwal JK. View invariant human action recognition
using histograms of 3D joints. IEEE Computer Vision and Pattern Recognition
2012. pp. 20‑27》，现有技术3来自《Yao L, Yang W, Huang W. A data augmentation
method for human action recognition using dense joint motion images. Applied
Soft Computing 2020, 97: 106713》。

[0083] 表2在 Florence‑3D 和 UT‑3D 数据集上的动作检测精度比较

[0084]

[0085] （4）TAL测试

[0086] 在连续的人类行为视频中精确定位一个动作的SKF和EKF是工作的最终目标。在这些实验中，使用了来自HanYue‑3D数据集的4种复杂行为样本。

[0087] 首先，以经过微调的ZFNet为骨干，确定参数值的最佳组合。LSF‑TD的3个关键参数，即窗口大小(W)，sub‑windows数(N)和信心得分(T)，设置W =(40、50、60、70)，N =[2、3]
和T =(0.6, 0.7, 0.8, 0.85, 0.9)。采用不同交并值(mAP@IoU:0.1:0.05:1)的平均平均
精度(mAP)对结果进行评价。在40个参数组合中，当W=50, N=2, T=0.85时，该方法的效果最
好。

[0088] 此外，如表3所示，使用滑动窗口策略的方法总体上优于使用相同CNN框架但使用LSF‑TD策略的方法。

[0089] 表3不同欠条下mAP的比较

[0090]

[0091] 其中，LSF‑TD的参数设为W=50, N=2, T=0.85。滑动窗4个尺度设置为(40、45、50、55)。

[0092] 但本发明最终采用LSF‑TD策略而不是滑动窗口策略，是因为LST‑TD策略在达到与滑动窗口相近的精度时，更加高效。具体的，表4展示了每种策略的总TAL时间消耗和平均
FPS，实验在HanYue‑3D上进行，IoU=0.5。表5展示了本发明的方法与现有的最先进的方法在
不同iou和平均FPS下的map比较，实验在HanYue‑3D上进行，表5中，现有技术4来自《Gao J,
Yang Z, Sun C, et al. ‘TURN TAP: Temporal unit regression network for
temporal action proposals 2017, arXiv:1703.06189.》，现有技术5来自《Shou Z, Wang
D, Chang S. Temporal action localization in untrimmed videos via multi‑stage
CNNs. IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp.
1049–1058》，现有技术6来自《Xu H, Das A, Saenko K. R‑C3D: Region convolutional
3D network for temporal activity detection. IEEE International Conference on
Computer Vision 2017: 5783–5792》。

[0093] 表4 时间消耗的比较

[0094]

[0095] 表5本发明的方法与现有的最先进的方法在不同iou和平均FPS下的map比较

[0096]

[0097] TAL的国际评价标准为mAP@IoU=n，其中mAP为均值平均精确度，IoU为检测结果与标定结果的重合度，n是具体重合度下mAP的指标。即：mAP@IoU=n为重合度为n的情况下，均
值平均精确度能达到多少。国际上一般用IoU=0.5做评判标准，mAp越大越好，从表4可以看
出本发明方法的速度可以达到实时检测。表5中，本发明的mAP@IoU=0.5的数值超过目前最
先进方法十几个百分点，可以称为重大突破。

[0098] 综上，根据本发明提供的实时的动作时序定位方法，具有以下有益效果：

[0099] 1）与主流运动图像相比，密集关节运动矩阵可以保留更多的运动特征，在细节表示上更精确；此外，密集关节运动矩阵还很好地解决了一定时间内因运动轨迹重叠造成的
时间信息丢失问题；

[0100] 2）相对于目前主流的“缩放”和“裁剪”两种归一化策略，基于双线性二次插值算法能够在对动作样本进行时间尺度归一化的同时，尽量小的降低运动信息的丢失；

[0101] 3）引入空间金字塔池化层，提出了一种对经典卷积神经网络进行多尺寸改造的普适性方法，改进后的卷积神经网络能够进行多尺寸学习，从不同尺寸的密集关节运动矩阵
中学习运动特征，也保障了深度神经网络能够进行多维度学习；

[0102] 4）相比现行主流的“时间锚点”和“滑动窗口”而言，采用长时优先时间探进策略，能够大大提高实现视频流探测的效率；

[0103] 5）将本发明与其他主流的方法进行实验评价，结果表明本发明的方法在动作识别方面具有较强的准确率和较高的精度，在动作时序定位方面，效率和准确率均远高于现有
主流方法，本发明能够用于实时监控；

[0104] 6）本文所提出的针对人体骨架和时序进行的样本生成算法，能够有效实现人体行为动作的复制和生成，降低了动作采集和标定成本，为深度神经网络的小样本学习提供了
有效途径。

一种实时的动作时序定位方法转让专利

申请号 : CN202111077388.1

文献号 : CN113537164B

文献日 : 2021-12-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 姚磊岳 , 杨威

申请人 : 江西科技学院

摘要 :

权利要求 :

说明书 :