基于深度学习的跌倒和暴力检测方法转让专利

申请号 : CN201911142184.4

文献号 : CN111091060B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘海强李占山

申请人 : 吉林大学

摘要 :

本发明涉及一种基于深度学习的跌倒和暴力检测方法,其特征在于步骤为:(1)将视频分割成图像序列,输入到已训练好的卷积神经网络模型,提取出人体关节点的二维坐标;(2)采集跌倒动作数据集和暴力动作数据集,分别用于训练端到端深度网络Ⅰ和端到端深度网络II;(3)根据步骤1得到的关节点坐标进行判断,若膝盖关节点的纵坐标低于阈值,则进入跌倒检测流程,否则进入暴力检测流程;其将跌倒和暴力检测整合到一个系统当中,采用端到端深度网络准确地提取出与跌倒和暴力动作相关的特征,削弱了噪声的干扰,当待识别的动作种类增多时,模型仍然具有很好的拟合效果。

权利要求 :

1.基于深度学习的跌倒和暴力检测方法,其特征在于具体步骤如下:步骤1:将视频分割成图像序列,输入到已训练好的卷积神经网络模型,提取出人体关节点的二维坐标;

步骤2:采集跌倒行为数据集和暴力行为数据集,分别用于训练端到端深度网络Ⅰ和端到端深度网络II,前者用于检测跌倒动作,后者用于检测暴力动作;

步骤3:根据步骤1得到的关节点坐标进行判断,若膝盖关节点的纵坐标低于阈值,则进入跌倒检测流程,否则进入暴力检测流程;

步骤4:进行跌倒行为和暴力行为的实时检测;

所述的步骤1使用的卷积神经网络是OpenPose网络,将图像序列输入到已训练好的模型,对于每帧图像中的每个人物,得到16个人体关节点的二维坐标:(xi,yi),i=1,2,…,16

式中,xi是第i个关节点在图像坐标系下的横坐标,yi是第i个关节点在图像坐标系下的纵坐标;

所述的步骤2所搭建的端到端深度网络由三个模块组成:数据增强模块、特征提取模块和行为检测模块;其中,数据增强模块对输入的关节点坐标进行速度变换,得到慢动作样本和快动作样本,以丰富数据集,提高网络的鲁棒性;特征提取模块接收数据增强模块变换的样本,通过深度网络自动学习出与跌倒动作和暴力行为相关的时序特征,为后续模块的识别检测打好基础;行为检测模块将特征提取模块输出的特征进行加权融合,提高识别准确率;

所述数据增强模块对数据集的动作速度进行变换,经过速度变换后的动作序列为:T

L=(l1,l2,…,lM)

T

式中,L=(l1,l2,…,lM) 是原始动作序列,M是原始动作序列的帧数,l是原始动作序列V中一帧的关节点坐标数据; 是变换后的动作序列,M 是变换后动作序列V的帧数,l是变换后的动作序列中一帧的关节点坐标数据;λ是变换因子,λ∈{0.5,0.75,1,V

1.5,2},当取λ<1时,通过在原始动作序列中等间隔地取出M 帧序列以获取更快的动作序V列;当取λ>1时,通过在原始的M帧动作序列上等间隔地插入(M‑M)帧的数据以组成更慢的动作序列,插入的数据为前一时刻与后一时刻数据的均值;当取λ=1时保持原始动作的速度不变;

所述的特征提取模块的主干由三层双向长短时记忆模型,简称BiLSTM模型组成,为了防止发生过拟合,在每层BiLSTM模型之前加入遗忘层DP;随着网络层数的增加,该模块能够自动地从骨骼的低层次特征学习到与跌倒和暴力动作相关的高层次特征;最后通过池化层MP整合三层BiLSTM网络所学习到的特征;

所述的行为检测模块使用全连接层FC和归一化指数函数Softmax对动作序列进行分类;对于样本x,网络将其识别为动作y的概率为:z=Wx+b

式中,C为动作种类数,W、b和z分别是全连接层的权重矩阵、偏置矩阵和输出。

2.根据权利要求1所述的基于深度学习的跌倒和暴力检测方法,其特征在于所述的步骤2采集了跌倒动作和5种常见的暴力行为作为正样本;为了区分于其他非暴力行为,又采集了5种生活中常见的安全行为作为负样本;每种动作采集了40个样本,将数据集的四分之三作为训练集,四分之一作为测试集。

3.根据权利要求1所述的基于深度学习的跌倒和暴力检测方法,其特征在于所述的步骤3根据步骤1得到的关节点坐标进行判断,若膝盖关节点的纵坐标低于阈值,则进入跌倒检测流程,否则进入暴力检测流程;其判断条件为:y9≤δ且y12≤δ

式中,y9是左膝关节点的纵坐标,y12是右膝关节点的纵坐标,δ是给定的阈值。

4.根据权利要求1所述的基于深度学习的跌倒和暴力检测方法,其特征在于所述的步骤4在跌倒检测流程中,连续采集10帧步骤1 的关节点坐标,输入到步骤2训练的端到端深度网络Ⅰ,将其转换为与跌倒行为相关的时序特征,并根据网络的输出判断是否需要报警。

5.根据权利要求1所述的基于深度学习的跌倒和暴力检测方法,其特征在于所述的步骤4在暴力检测流程中,根据步骤1得到的关节点坐标计算人体边界,公式如下:

1 2 1 2

式中,x 、x、y和y分别是人体在图像中的左边界、右边界、上边界和下边界,x1,x2,…,x16是人体的16个关节点在图像坐标系下的横坐标,y1,y2,…,y16是人体的16个关节点在图像坐标系下的纵坐标;当图像中两个人的边界满足如下条件时启动步骤2训练的端到端深度网络II:且

式中, 是第一个人的右边界, 是第二个人的左边界, 是第一个人的左边界, 是第二个人的右边界,ε是给定的阈值,当满足该条件时,两人正彼此接近,接下来有发生肢体冲突的可能,此时连续采集20帧步骤1的关节点坐标,并将其输入到步骤2训练的端到端深度网络II,提取与暴力行为相关的时序特征,通过网络的输出判断是否需要报警,当需要报警时输出暴力行为的种类。

说明书 :

基于深度学习的跌倒和暴力检测方法

技术领域

[0001] 本发明涉及一种基于深度学习的跌倒和暴力检测方法,属于人工智能技术领域。技术背景
[0002] 近年来,恐怖袭击和暴力冲突事件时常发生,人口老龄化进程持续加快。传统的依靠人力的安防监控方式已愈发困难,且效率低下。集老人跌到检测和暴力检测于一体的智能识别方法具有潜在的应用价值,对于保障医院、敬老院、学校和商场等场所的公共安全尤为重要。
[0003] 暴力行为是一种多人交互行为,比单人的跑、跳、坐、立等日常行为要复杂很多,如何进行暴力检测也是目前的研究热点和难点。传统的检测方法采用手工构造的特征进行分类,如基于轨迹提取的方法识别暴力行为,但这种方法的实时性较差,容易受到噪声的干扰。还有通过光流场计算连续两帧之间目标的运动速度和运动方向,但容易将快速或大幅度的动作误判为暴力行为。此外,传统的研究将跌倒检测和暴力检测割裂,没有将两个功能整合到一个系统,造成了监控资源的浪费。
[0004] 综上所述,现有的跌倒检测系统和暴力检测系统是相互独立的;且检测方法存在一定的缺陷,容易受到噪声的干扰,当待识别的行为种类增多时模型的拟合效果欠佳,对于动作速度和幅度的鲁棒性较差。

发明内容

[0005] 针对上述检测方法的不足,本发明将跌到和暴力行为检测整合到一个系统当中,提出了一种基于深度学习的跌倒和暴力检测方法。该方法采用端到端深度网络准确地提取出与跌倒和暴力动作相关的特征,削弱了噪声的干扰,当待识别的动作种类增多时,模型仍然具有很好的拟合效果,且对于速度和幅度变化大的动作有着较好的鲁棒性。
[0006] 本发明的技术方案是这样实现的:一种基于深度学习的跌倒和暴力检测方法其特征在于包括以下步骤:
[0007] 步骤1:将视频分割成图像序列,输入到已训练好的卷积神经网络模型,提取出人体关节点的二维坐标;
[0008] 步骤2:采集跌倒行为数据集和暴力行为数据集,分别用于训练端到端深度网络Ⅰ和端到端深度网络II;
[0009] 步骤3:根据步骤1得到的关节点坐标进行判断,若膝盖关节点的纵坐标低于阈值,则进入跌倒检测流程,否则进入暴力检测流程;
[0010] 步骤4:进行跌倒行为和暴力行为的实时检测。
[0011] 进一步的,步骤1所用的卷积神经网络是OpenPose网络,将图像序列输入到已训练好的模型,对于每帧图像中的每个人物,得到人体16个关节点的二维坐标:
[0012] (xi,yi),i=1,2,...,16
[0013] 式中,xi是第i个关节点在图像坐标系下的横坐标,yi是第i个关节点在图像坐标系下的纵坐标。
[0014] 进一步的,步骤2采集了跌倒动作和扇巴掌、推肩膀、拳击、踢人、拍后背这5种常见的暴力行为作为正样本,为了区分于非暴力行为,又采集了扶肩膀、递东西、拥抱、握手、靠近这5种生活中常见的安全行为作为负样本,每种动作采集了40个样本。
[0015] 进一步的,步骤2搭建的端到端深度网络中的数据增强模块对数据集的动作速度进行变换,经过速度变换后的动作序列为:
[0016]
[0017] L=(l1,l2,…,lM)T
[0018]
[0019] 式中,L=(l1,l2,…,lM)T是原始动作序列,M是原始动作序列的帧数,l是原始动作V序列中一帧的关节点坐标数据。 是变换后的动作序列,M 是变换后动作V
序列的帧数,l 是变换后的动作序列中一帧的关节点坐标数据。λ是变换因子,λ∈{0.5,V
0.75,1,1.5,2},当取λ<1时,通过在原始动作序列中等间隔地取出M帧序列以获取更快的V
动作序列;当取λ>1时,通过在原始的M帧动作序列上等间隔地插入(M ‑M)帧的数据以组成更慢的动作序列,插入的数据为前一时刻与后一时刻数据的均值;当取λ=1时保持原始动作的速度不变。
[0020] 进一步的,步骤2搭建的端到端深度网络中的特征提取模块,其主干由三层双向长短时记忆模型,简称BiLSTM模型组成,为了防止发生过拟合,在每层BiLSTM模型之前加入遗忘层DP。随着网络层数的加深,该模块能够自动地从骨骼的低层次特征学习到与跌倒和暴力动作相关的高层次特征。最后通过池化层MP整合三层BiLSTM网络所学习到的特征。所用BiLSTM模型的前向传播过程如下:
[0021]
[0022] 式中,x是模型的输入,即步骤1中的关节点坐标;h是模型提取出的特征;σ和tanh分别是sigmoid激活函数和双曲正切激活函数;i、f、c和o分别是细胞结构的输入门、遗忘门、隐藏状态和输出门;W和b分别是权重矩阵和偏置矩阵。
[0023] 进一步的,步骤2搭建的端到端深度网络中的行为检测模块使用全连接层FC和归一化指数函数Softmax对动作序列进行分类。对于样本x,网络将其识别为动作y的概率为:
[0024]
[0025] z=Wx+b
[0026] 式中,C为动作种类数,W、b和z分别是全连接层的权重矩阵、偏置矩阵和输出。
[0027] 进一步的,步骤3中的判断条件为:
[0028] y9≤δ且y12≤δ
[0029] 式中,y9是左膝关节点的纵坐标,y12是右膝关节点的纵坐标,δ是给定的阈值。当双膝关节点低于该值时进入跌倒检测流程,否则进入暴力检测流程。
[0030] 进一步的,步骤4在跌倒检测流程中,将10帧步骤1的关节点坐标输入到步骤2训练的端到端深度网络Ⅰ,将其转换为与跌倒行为相关的时序特征,并根据网络的输出判断是否需要报警。
[0031] 进一步的,步骤4在暴力检测流程中,根据步骤1得到的关节点坐标计算人体边界,公式如下:
[0032]
[0033] 式中,x1、x2、y1和y2分别是人体在图像中的左边界、右边界、上边界和下边界,x1,x2,…,x16是人体的16个关节点在图像坐标系下的横坐标,y1,y2,…,y16是人体的16个关节点在图像坐标系下的纵坐标。当图像中两个人的边界满足如下条件时进入暴力检测流程:
[0034] 且
[0035] 式中, 是第一个人的右边界, 是第二个人的左边界, 是第一个人的左边界,是第二个人的右边界,ε是给定的阈值。当满足该条件时,两人正彼此接近,接下来有发生肢体冲突的可能,此时连续采集20帧步骤1的关节点坐标,并将其输入到步骤2训练的端到端深度网络II,提取与暴力行为相关的时序特征,通过网络的输出判断是否需要报警,当需要报警时输出暴力行为的种类。
[0036] 本发明的积极效果是将跌到检测和暴力检测整合到一个系统当中,采用端到端深度网络准确地提取出与跌倒和暴力动作相关的特征,削弱了噪声的干扰,当待识别的动作种类增多时,模型仍然具有很好的拟合效果,且对于速度和幅度变化大的动作有着较好的鲁棒性。

附图说明

[0037] 图1是基于深度学习的跌倒和暴力检测方法的总体流程图。
[0038] 图2是OpenPose网络提取人体关节点的效果图。
[0039] 图3是端到端深度网络结构图。
[0040] 图4a是暴力行为扇巴掌在第5桢的关节点数据示意图。
[0041] 图4b是暴力行为扇巴掌在第10桢的关节点数据示意图。
[0042] 图4c是暴力行为扇巴掌在第15桢的关节点数据示意图。
[0043] 图5是测试集的识别准确率随迭代次数变化的曲线。
[0044] 图6暴力行为扇巴掌实时检测的效果图。
[0045] 图7暴力行为推肩膀实时检测的效果图。
[0046] 图8安全行为(递东西)的实时检测效果图。

具体实施方式

[0047] 为了使本发明的目的、技术方案及优点更加清晰明了,下面结合附图对本发明进行进一步详细说明。
[0048] 如图1所示,基于深度学习的跌倒和暴力检测方法,其特征在于具体步骤如下:
[0049] 步骤1:将视频分割成图像序列,输入到已训练好的卷积神经网络模型,提取出人体关节点的二维坐标;
[0050] 所用的卷积神经网络是OpenPose网络,将图像序列输入到已训练好的模型,对于每帧图像中的每个人物,可以得到16个人体关节点的二维坐标,其分布如图2所示:
[0051] (xi,yi),i=1,2,...,16
[0052] 式中,xi是第i个关节点在图像坐标系下的横坐标,yx是第i个关节点在图像坐标系下的纵坐标。
[0053] 步骤2:采集跌倒行为数据集和暴力行为数据集,分别用于训练端到端深度网络Ⅰ和端到端深度网络II,前者用于检测跌倒动作,后者用于检测暴力动作;
[0054] 图3为端到端深度网络结构图,该网络由三个模块组成:数据增强模块、特征提取模块和行为检测模块。
[0055] 对于同一动作而言,不同人的执行速度有较大差别。例如,老人走路或跑步的速度远慢于青年人的速度。为了提升模型的泛化能力,需要数据增强模块对数据集的动作速度进行增强处理。经过速度变换后的动作序列为:
[0056]
[0057] L=(l1,l2,…,lM)T
[0058]
[0059] 式中,L=(l1,l2,…,lM)T是原始动作序列,M是原始动作序列的帧数,l是原始动作V序列中一帧的关节点坐标数据。 是变换后的动作序列,M是变换后动作
V
序列的帧数,l 是变换后的动作序列中一帧的关节点坐标数据。λ是变换因子,λ∈{0.5,V
0.75,1,1.5,2},当取λ<1时,通过在原始动作序列中等间隔地取出M帧序列以获取更快的V
动作序列;当取λ>1时,通过在原始的M帧动作序列上等间隔地插入(M ‑M)帧的数据以组成更慢的动作序列,插入的数据为前一时刻与后一时刻数据的均值;当取λ=1时保持原始动作的速度不变。
[0060] 为了从原始的骨骼数据中学习出足以区分不同动作的特征,在特征提取模块设计了一种新的深度网络,随着网络层数的增加,能够自动地从骨骼的低层次特征学习到与跌倒和暴力动作相关的高层次特征。该模块的主干由三层BiLSTM模型组成,并在每层之前加入遗忘层DP以防止发生过拟合。之后通过池化层MP整合BiLSTM网络学习到的特征。所用BiLSTM模型的前向传播过程如下:
[0061]
[0062] 式中,x是模型的输入,即步骤1中的关节点坐标;h是模型提取出的特征;σ和tanh分别是sigmoid激活函数和双曲正切激活函数;i、f、c和o分别是细胞结构的输入门、遗忘门、隐藏状态和输出门;W和b分别是权重矩阵和偏置矩阵。
[0063] 在行为检测模块中,使用全连接层FC和归一化指数函数Softmax对动作序列进行分类。对于样本x,网络将其识别为动作y的概率为:
[0064]
[0065] z=Wx+b
[0066] 式中,C为动作种类数,W、b和z分别是全连接层的权重矩阵、偏置矩阵和输出。
[0067] 本发明采集了跌倒动作和扇巴掌、推肩膀、拳击、踢人、拍后背这5种常见的暴力行为作为正样本。图4为其中一种暴力行为(扇巴掌)的关节点数据示意图,该动作总共包含20帧,由于篇幅受限,仅展示第5帧、第10帧和第15帧这3帧的数据。图4a是第5帧数据,此时施虐者正将手臂举起,表现出了施暴的意图;图4b是第10帧数据,此时施虐者的手掌打在了受虐者的脸部;图4c是第15帧数据,此时施虐者收回了手臂,而受虐者的头颈在施虐者的暴力冲击下发生了扭动。总共20帧的关节点数据包含了丰富的暴力特征,可以通过搭建端到端深度网络对其进行提取和识别。为了区分于非暴力动作,又采集了扶肩膀、递东西、拥抱、握手、靠近这5种生活中常见的安全行为作为负样本。每种动作采集了40个样本,将数据集的四分之三作为训练集,四分之一作为测试集。
[0068] 实验基于Windows 10系统,服务器配置:处理器Intel i7,运行内存8G,显卡GTX980,显存4G。采用Keras深度学习框架,tensorflow后端,集成开发环境为Eclipse。实验参数设置如下:基础学习率=0.02,总共迭代200次,每迭代40次学习率衰减一次,衰减率=0.5,动量参数=0.9,每层BiLSTM的神经元数为512,Dropout层的概率为0.5,使用随机梯度下降算法训练该网络,每批训练32个样本。
[0069] 图5是随迭代次数的增加,测试集识别准确率的变化曲线。由图可知,网络的收敛效果较好。在迭代到196次时,达到最高的准确率0.986。
[0070] 步骤3:根据步骤1得到的关节点坐标进行判断,若膝盖关节点的纵坐标低于阈值,则进入跌倒检测流程,否则进入暴力检测流程。
[0071] 判断条件为:
[0072] y9≤δ且y12≤δ
[0073] 式中,y9是左膝关节点的纵坐标,y12是右膝关节点的纵坐标,δ是给定的阈值。
[0074] 步骤4:进行跌倒行为和暴力行为的实时检测。
[0075] 在跌倒检测流程中,连续采集10帧步骤1的关节点坐标,输入到步骤2训练的端到端深度网络Ⅰ,将其转换为与跌倒行为相关的时序特征,并根据网络的输出判断是否需要报警。
[0076] 在暴力检测流程中,根据步骤1得到的关节点坐标计算人体边界,公式如下:
[0077]
[0078] 式中,x1、x2、y1和y2分别是人体在图像中的左边界、右边界、上边界和下边界,x1,x2,...,x16是人体的16个关节点在图像坐标系下的横坐标,y1,y2,...,y16是人体的16个关节点在图像坐标系下的纵坐标。当图像中两个人的边界满足如下条件时进入暴力检测流程:
[0079] 且
[0080] 式中, 是第一个人的右边界, 是第二个人的左边界, 是第一个人的左边界,是第二个人的右边界,ε是给定的阈值。当满足该条件时,两人正彼此接近,接下来有发生肢体冲突的可能,此时连续采集20帧步骤1的关节点坐标,并将其输入到步骤2训练的端到端深度网络II,提取与暴力行为相关的时序特征,通过网络的输出判断是否需要报警,当需要报警时输出暴力行为的种类。
[0081] 图6、图7和图8是实时检测的效果图,受篇幅限制,仅展示了两种暴力行为(扇巴掌和推肩膀)和一种安全行为(递东西)的实时检测效果。结果表明,本发将跌到检测和暴力检测整合到一个系统当中,采用端到端深度网络准确地提取出与跌倒和暴力动作相关的特征,削弱了噪声的干扰,当待识别的动作种类增多时,模型仍然具有很好的拟合效果,且对于速度和幅度变化大的动作有着较好的鲁棒性。
[0082] 尽管以上结合附图对本发明的实施方案进行了详细的描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的技术人员在本说明书的启示下,在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种形式,这些均属于本发明的保护之列。