一种实时的动作时序定位方法转让专利
申请号 : CN202111077388.1
文献号 : CN113537164B
文献日 : 2021-12-07
发明人 : 姚磊岳 , 杨威
申请人 : 江西科技学院
摘要 :
权利要求 :
1.一种实时的动作时序定位方法,其特征在于,包括:从深度动作序列中逐帧跟踪人体关节点,计算关节运动信息,将这些运动信息组成一个按时间和关节序列排序的密集关节运动矩阵,该密集关节运动矩阵为三维矩阵;
在生成的密集关节运动矩阵的基础上,通过双线性二次插值算法生成多个时序纬度统一的动作矩阵,使深度神经网络可对多个时间尺度的样本集进行训练;
引入空间金字塔池化层代替经典卷积神经网络中的flatten层,以得到可以接受任意输入尺寸的改进后的卷积神经网络,改进后的卷积神经网络在训练阶段能够接收不同尺寸的输入数据并共享权重,且在检测阶段,任意持续时间的动作都可以输入到改进后的卷积神经网络中进行分类;
使用长时优先时间探进策略,用于定位连续行为视频中的动作,所述长时优先时间探进策略在对人体行为视频进行探测时,通过改进后的卷积神经网络优先对相对较大的时间窗口内的动作进行探测,在得到的检测结果的置信度达不到阈值时,将时间窗口尺寸进行缩减,并再次探测,直到视频被检测完毕。
2.根据权利要求1所述的实时的动作时序定位方法,其特征在于,所述密集关节运动矩阵的表达式如下:
A=T×J×F
其中,A为动作序列矩阵,T为动作持续的帧数,J为动作者骨架采用的关节个数,F为每帧计算提取的特征个数。
3.根据权利要求1所述的实时的动作时序定位方法,其特征在于,所述空间金字塔池化层的输出尺寸如下:
其中,L为所述空间金字塔池化层的输出尺寸,Nf为特征图的数量,Pi表示所述空间金字塔池化层中使用的第i个池层。
4.根据权利要求1所述的实时的动作时序定位方法,其特征在于,所述改进后的卷积神经网络在训练阶段具有两种样本,分别为:用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本。
5.根据权利要求4所述的实时的动作时序定位方法,其特征在于,所述方法还包括:采用双线性二次插值算法对用于模拟在不同速度下执行某一动作的样本、用于模仿不同体型的人做相同动作的样本长度进行统一。
6.根据权利要求1或5所述的实时的动作时序定位方法,其特征在于,所述双线性二次插值算法包括插值策略和隔帧抛弃策略。
说明书 :
一种实时的动作时序定位方法
技术领域
背景技术
频通常又长又复杂,并且包含多个不同的动作。基于此,动作时序定位(TAL)吸引了越来越
受到研究人员的关注,TAL旨在识别长而复杂的视频中每个动作的开始关键帧(SKF)和结束
关键帧(EKF),TAL主要回答两个问题:动作什么时候发生和结束、动作属于什么类别。
此目的的特征。所有这些基于特征的方法都遵循类似的处理方法。首先,在时间维度的帧中
检测兴趣点。然后,跟踪每个兴趣点的轨迹。最后,将所有兴趣点的轨迹以数学方式作为一
个整体进行描述,并将它们分为不同的类别。改进的密集轨迹(iDT)和支持向量机(SVM)算
法是当时最具代表性的描述符和分类器算法。
可以比以前更容易地提取深度特征。因此,包括HAR和TAL在内的许多任务的工作经历了巨
大的发展。基于2D‑CNN的方法已被用于从预处理的运动图像中学习判别特征,例如光流
(OF)特征、运动历史图像(MHI)、静态历史图像(SHIs)、运动能量图像(MEIs)和其他变体。这
些经典的运动图像可以很好地处理时间信息,并将来自多帧的信息压缩成具有统一尺寸的
运动图像。与2D‑CNN方法相比,基于3D‑CNN的方法提供了一种更简单的方法来处理时间信
息。这种方法总是在端到端框架中使用。然而,基于3D‑CNN的方法在长时间视频处理方面存
在局限性,因为它们对计算能力的需求很大。为了减少输入参数,在基于3D‑CNN或长短期记
忆(LSTM)的方法中普遍采用使用预训练2D‑CNN的方法。在单动作检测领域,目前新兴的方
法可以达到95%甚至更高的准确率。然而,这些方法仍然不是长时视频中TAL的最终解决方
案。
种“先提出再分类”的方法被称为两阶段定位方法。提取高质量的时间建议是这种方法的核
心步骤。滑动窗口自然成为这一任务的典型代表方法。一般情况下,当连续滑动窗之间的重
叠足够高时,最终的TAL结果较好。然而,过高的滑动窗口重叠将导致难以承受的计算负荷。
与两阶段方法不同,单阶段方法同时处理提案和分类。另外,一些基于顺序决策过程的方法
也可以归为单阶段框架。一般来说,单阶段方法在效率上有优势,并且总是在端到端框架中
使用。从本质上讲,单阶段方法仍然遵循与两阶段方法相同的基本规则。它可以看作是两阶
段方法+融合算法。然而,现有技术中的单阶段TAL方法,在动作识别方面的准确率以及识别
效率均有待提高,且无法做到实时检测。
发明内容
尺寸的输入数据并共享权重,且在检测阶段,任意持续时间的动作都可以输入到改进后的
卷积神经网络中进行分类;
时间窗口内的动作进行探测,在得到的检测结果的置信度达不到阈值时,将时间窗口尺寸
进行缩减,并再次探测,直到视频被检测完毕。
时间信息丢失问题;
中学习运动特征,也保障了深度神经网络能够进行多维度学习;
主流方法,本发明能够用于实时监控;
有效途径。
附图说明
具体实施方式
同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本
发明的公开内容更加透彻全面。
关节外的其余23个关节构成运动矩阵。
值,因此该运动图像的精度往往不足以满足对相似动作的识别要求。为了克服这一瓶颈,本
发明提出了具体上述表达式的密集关节运动矩阵(DJMM)。
个关节点在每一秒(1秒有30帧)提取15个运动特征。故,DJMM的大小为:帧数*关节点*特征
数。如:一个2秒的动作生成的三维矩阵大小为:60*23*15。
HAR问题。
地减少了输入参数的数量。
训练阶段只能够接收尺度统一的数据进行训练。所谓尺度统一,就是三维矩阵的尺度要统
一。而根据S1所述,矩阵的大小为N*23*15,N代表的是动作的持续时间(即:帧数),而每一个
动作,甚至相同的人做同一个动作也会出现时间上的不同。故,需要生成时序统一的动作矩
阵。例如:如果一个动作没有满60帧,就通过算法让其满60帧;一个动作超过了60帧,也通过
算法进行帧的抛弃,让其减少到60帧。这样,就可以将时间不同的各种动作形成归一化的多
种尺度,如:50帧归一化一批,60帧归一化一批,70帧归一化一批,以满足神经网络的训练要
求。
算t和r,t=TS/TN,r=TS%TN,每隔t帧抛弃1帧,然后随机抛弃r帧。若TS小于等于TN,则计算t和
r,t=TN/TS,r=TN%TS,每隔t帧插入1帧,然后随机插入r帧。最后能够将样本归一化为TN帧的新
样本。
力,从而提高模型的准确率。为达到高精度的目的,可以预先选择两个或更多的刻度。这一
步在样本不足的训练阶段尤为重要。
本,每个动作组只包含20个样本。MSRAction3D由20个作用组和567个作用样品组成,每个作
用组只包含27 30个样品。即使对于最大的3D动作数据集NTU‑RGB+D,每个动作组包含大约
~
900个样本,这不足以有效训练一个CNN。此外,在样本不足的情况下训练的CNN经常会出现
过拟合。而双线性二次插值算法生成时序统一的动作矩阵,能够有效避免过拟合。
权重,且在检测阶段,任意持续时间的动作都可以输入到改进后的卷积神经网络中进行分
类。
在使用过程中不受尺度限制。
feature map数为24;则SPP层的输出大小为
可以接收输入任何比例的数据。
这种主流方法在时间维度定位复杂动作时可能效果不佳。换句话说,一个复杂的动作可能
会被错误地分成几个简单的动作。
字之间没有界限,在一个连续的人类行为视频中,动作之间也没有界限。第三,一个汉语句
子包含几个汉语单词,一个人类行为实例包含几个动作。基于以上3个关键的相似点,目前
为止在中文分词领域已经证明的最有效的算法对TAL有很大的参考价值。受中文文本分割
研究领域MMSeg算法的启发,本发明提出了一种新的窗口合并策略,称为长时优先时间探进
策略(LSF‑TD),这种长时优先时间探进策略在进行探测时,优先对窗口大小大于预设值的
时间窗口进行探测。在该策略中,有3个关键参数,即窗口大小(W)、子窗口数(N)和置信度
(T),此外还有一个静态值5,表示最小的尝试帧数。
个桢所包含的动作进行预测,并得到预测结果置信度:c。然后判断置信度是否大于阈值,若
置信度大于阈值,则设置(S+W)桢标签为所预测的结果动作,然后设置S=E+1,再设置E=W,并
循环对“S+W”个桢所包含的动作进行预测。若置信度不大于阈值,则判定当前预测时间总长
度是否大于5帧,若当前预测时间总长度大于5帧,则设置E=Ws=W/N,并循环对“S+W”个桢所
包含的动作进行预测。若当前预测时间总长度不大于5帧,则设置(S+W)桢标签为所预测的
结果动作。
器和64 GB RAM,频率为3200 MHz。
力的准确性,并在效率方面优于其他方法。
集的镇定的数据集(以下分别称为UT‑3D、Florence‑3D HanYue‑3D)。与目前基于关节运动
轨迹图(JTM)的方法相比,本发明方法在准确性和时间效率方面具有竞争优势。特别是,
DJMM的使用可以将输入参数的数量至少减少一个数量级。
上述动作2至3次。结果总共有215个活动样本,每个行动大约有20‑30个样本。在这个数据集
中,每个受试者记录了15个关节。
然而,在“携带”行动组中只有19个样本,因为其中一个样本的骨架信息未能捕获。每个受试
者记录20个关节,其中15个用于本发明的方法。
站起来、站着不动、站着拍掌、走、坐、坐着不动、拍掌。9名受试者被要求进行这15项活动3或
4次。记录Kinect v2.0传感器提供的所有25个关节的三维坐标位置。总共有413个样本,每
个动作类型由35‑37个样本代表。此外,为了TAL的目的,收集了4种复杂的行为类型。每个复
杂行为都由上述几个简单操作组成。这四个复杂的行为分别是“坐着→站着→拍拍衣服”、
“跳着→站着→跳着→挥手”、“走着→站着→跳着→挥手坐下”和“坐着→站着→站着→鼓
掌→跳着→挥手”。
对于表1中报告的所有实验,CNN的参数设置为相同的值,optimizer= ' sgd ', optimizer
的参数设置为默认值,batch‑size=64, epoch =100。随机选取90%的样本创建djmm并训练
提案模型,其余10%作为测试样本。
固定的尺寸,因此目标样本不需要统一到一定的尺寸。即保留了测试样本的所有运动信息。
这些实验不仅证明了SPP策略比简单的裁剪/翘曲策略能保留更多的运动信息,也说明了本
发明的多尺度网络的简单性。
不足以训练好CNN。通过比较不同培训策略下的培训过程,能够得出以下结论:
大的动作样本,TMFAA的优势尤为明显。
型相同,但在UT‑3D数据集上添加了多尺度策略后,测试精度提高了5.27%。这是因为UT‑3D
样本的持续时间在5帧到114帧之间,比其他两个数据集的变化要大得多。这些结果也证明
了TMFAA比修剪和缩放策略能保留更多的运动信息。
准确率方面的测试结果最好,而仅对原始样本进行训练获得的其他测试准确率远低于训练
阶段观察到的准确率。以Florence‑3D组和HanYue‑3D组的棒为例,测试准确率分别达到
68.42%和67.74%,而训练阶段的准确率要高得多。这些结果有力地证明,对于所有3个小样
本数据集,在增强数据集上的训练很好地解决了过拟合问题。表2比较了动作检测精度的结
果,其中,现有技术1来自《Seidenari L, Varano V, Berretti S, et al. Recognizing
actions from depth cameras as weakly aligned multi‑partbag‑of‑poses. IEEE
Conference on Computer Vision and Pattern Recognition 2013. pp. 479‑485》,现有
技术2来自《Xia L, Chen C, Aggarwal JK. View invariant human action recognition
using histograms of 3D joints. IEEE Computer Vision and Pattern Recognition
2012. pp. 20‑27》,现有技术3来自《Yao L, Yang W, Huang W. A data augmentation
method for human action recognition using dense joint motion images. Applied
Soft Computing 2020, 97: 106713》。
和T =(0.6, 0.7, 0.8, 0.85, 0.9)。采用不同交并值(mAP@IoU:0.1:0.05:1)的平均平均
精度(mAP)对结果进行评价。在40个参数组合中,当W=50, N=2, T=0.85时,该方法的效果最
好。
FPS,实验在HanYue‑3D上进行,IoU=0.5。表5展示了本发明的方法与现有的最先进的方法在
不同iou和平均FPS下的map比较,实验在HanYue‑3D上进行,表5中,现有技术4来自《Gao J,
Yang Z, Sun C, et al. ‘TURN TAP: Temporal unit regression network for
temporal action proposals 2017, arXiv:1703.06189.》,现有技术5来自《Shou Z, Wang
D, Chang S. Temporal action localization in untrimmed videos via multi‑stage
CNNs. IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp.
1049–1058》,现有技术6来自《Xu H, Das A, Saenko K. R‑C3D: Region convolutional
3D network for temporal activity detection. IEEE International Conference on
Computer Vision 2017: 5783–5792》。
值平均精确度能达到多少。国际上一般用IoU=0.5做评判标准,mAp越大越好,从表4可以看
出本发明方法的速度可以达到实时检测。表5中,本发明的mAP@IoU=0.5的数值超过目前最
先进方法十几个百分点,可以称为重大突破。
时间信息丢失问题;
中学习运动特征,也保障了深度神经网络能够进行多维度学习;
主流方法,本发明能够用于实时监控;
有效途径。