一种基于动作预测的视频异常行为检测方法转让专利
申请号 : CN201910098962.8
文献号 : CN109919032B
文献日 : 2021-03-30
发明人 : 黎敏婷 , 余翔宇 , 范子娟
申请人 : 华南理工大学
摘要 :
权利要求 :
1.一种基于动作预测的视频异常行为检测方法,其特征在于,具体步骤包括:设计对抗生成网络模型,所设计的对抗生成网络模型包括生成器和一个判别器;
搭建生成器的编码部分;
搭建生成器的解码部分;
搭建判别器;所述判别器包括五层三维卷积模块和三层全连接层;第一、二层三维卷积模块不减少时间维度的大小;第三、第四、第五层三维卷积模块中进行池化操作时,均降低时间维度的大小;全连接层的最后输出不加入通过非线性激活函数将输出值范围进行限制,所述判别器的输出范围为(‑∞,+∞);
训练对抗生成网络模型的生成器和判别器;在训练过程中完成对动作和图形的建模,所述对抗生成网络模型用于描述运动轨迹和运动细节,同时也用于描述场景中图形的外观;
根据得到的最佳生成器网络,对视频中发生的异常事件进行检测。
2.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法,其特征在于,所述搭建生成器的编码部分步骤中生成器编码部分包括动作特征提取模块和图形特征提取模块;
在动作特征提取模块中,利用三维卷积的方法提取观测视频的动作特征,形成动作特征图;
在图形特征提取模块中,利用二维卷积的方法提取观测视频最后一帧的图形特征,形成图形特征图;
将动作特征图与图形特征图结合,作为对视频的编码。
3.根据权利要求2所述的一种基于动作预测的视频异常行为检测方法,其特征在于,所述动作特征提取模块的设置为:第一层由卷积核大小为4×3×3、步长为4×1×1的卷积核形成的卷积层、非线性激活层以及一个大小为1×2×2、步长为1×2×2的最大值池化层组成,之后两层均由卷积层1×3×3、步长为1×1×1的卷积层、非线性激活函数以及大小为1×2×2、步长为1×2×2的最大值池化层串联而成。
4.根据权利要求2所述的一种基于动作预测的视频异常行为检测方法,其特征在于,所述图形特征提取模块由三层组成,具体设置为:每层均由卷积核大小为3×3、步长为1×1的卷积层、非线性激活层、大小为2×2、步长为2×2的最大值池化层串联形成的小模块堆叠而成;输出的图形特征图与动作特征图在长和宽的维度上的大小保持一致。
5.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法,其特征在于,所述搭建生成器的解码部分步骤中,将输入的动作特征图按时间维度拆分为数个维度为长、宽和通道数的特征图,并按时间维度的先后顺序依次输入到卷积长短期记忆递归神经网络,从而得到一个维度为长、宽和通道数的动作预测特征图;之后按通道数的维度拼接动作预测特征图和图形特征图,再输入到两层由卷积核大小均为1×3×3、步长均为1×2×2的三维反卷积层和非线性激活层串联形成的网络模块中,最后通过一层卷积核大小为4×3×
3、步长为4×2×2的三维反卷积层,然后输入到一个非线性激活层,输出为图像大小与原视频相匹配的预测视频的其中四帧,该生成的四帧将作为输入按搭建生成器的编码部分和解码部分步骤中的处理方式进行处理,输出新的四帧预测视频片段,直至所有生成预测视频片段的时间长度之和满足要求后按时间先后拼接所有生成的片段,得到完整的预测视频。
6.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法,其特征在于,所述搭建判别器步骤中的对抗生成网络的判别器三维卷积模块均由三维卷积层、非线性激活层和最大值池化层串联而成;以真实视频以及预测视频作为输入,输出一维的结果对应的分值。
7.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法,其特征在于,所述训练对抗生成网络模型的生成器和判别器步骤中训练方法为:由生成样本与真实样本分值之差的最小化作为训练判别器的训练方向;对于生成器,由最小化判别器对生成样本的分值以及最小化生成视频与真实视频的生成误差作为训练方向;判别器和生成器交替训练直至生成器网络至最佳;
所述生成误差包括真实视频与预测视频进行逐帧像素之差的平方和、真实视频帧间差与预测视频帧间差进行逐帧间差逐像素之差的平方和。
8.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法,其特征在于,所述根据得到的最佳生成器网络,对视频中发生的异常事件进行检测步骤中的检测方法为:移除判别器,将视频输入到生成器中得到生成的预测视频,通过记录每个时间段预测视频与真实视频生成的误差动态生成异常检出的阈值,对预测视频的误差超过阈值的判断为视频中发生的异常事件。
说明书 :
一种基于动作预测的视频异常行为检测方法
技术领域
背景技术
够有效地帮助监控人员处理异常行为。
对行为模式进行建模。空间和时间特征都是基于计算机视觉而提出的,比如方向梯度直方
图、光流直方图、社会力模型、密集轨迹和动态纹理。但人工设计的特征需要一定的先验知
识,所述先验知识主要依赖于监视目标,并且很难在不同的应用中定义。
到了比传统方法更高的准确率。而深度学习在视频异常识别方面也取得了不错的成绩。由
于异常行为检测与一般的动作识别和动作检测相比具有异常种类多、异常行为样本少等特
点,从而难以通过人工设计行为模式或利用训练数据通过一般的深度学习方法来得到准确
度较高的分类器。与正常行为相比,异常行为通常具有不可预知性、突发性大等特点。根据
异常行为的不可预知性即异常行为的结果通常与预测不一致的特点,现有技术中利用长短
时循环神经网络预测行人轨迹并通过统计预测结果与真实结果的误差来检测视频中的异
常行为,所述方法取得了不错的结果。但该方法更实用于人流密集的场景,对于一些异常发
生时运动轨迹没有发生改变的场景适用性较低,对于有跑步、跳跃等行为引发的异常事件
在检测时,存在鲁棒性较低的缺陷。
发明内容
能力。
2×2的最大值池化层组成,之后两层均由卷积核大小为1×3×3、步长为1×1×1的卷积层、
非线性激活函数以及大小为1×2×2、步长为1×2×2的最大值池化层串联而成。
串联形成的小模块堆叠而成。输出的图形特征图与动作特征图在长和宽的维度上的大小保
持一致。
期记忆递归神经网络。拆分后的特征图数量与输入的动作特征图中时间维度的长度有关。
递归神经网络后,网络会根据之前所有时间维度的输入而更新的状态特征图以及最后一个
时间维度的输入而输出一个与所有输入的时间维度相关的动作预测图。由于每个时间维度
的特征图输入均能得到一个动作预测特征图,该动作预测特征图与该时间维度以及之前的
时间维度相关,因此选择最后一个时间维度作为最终输入的动作预测特征图作为卷积长短
期记忆递归神经网络的最终输出。
性激活层串联形成的网络模块中,最后通过一层卷积核大小为4×3×3、步长为4×2×2的
三维反卷积层,然后输入到一个非线性激活层,输出结果为图像大小与原视频相匹配的预
测视频的其中四帧,该输出的四帧将作为输入并按搭建生成器编码部分和解码部分中的处
理方式进行处理,再次输出新的四帧预测视频片段,直至所有生成预测视频片段的时间长
度之和满足要求后按时间先后拼接所有生成的片段,得到完整的预测视频。
而成;以真实视频以及预测视频作为输出,输出一维的结果对应的分值。
判别器对生成样本的分值以及最小化生成视频与真实视频的生成误差作为训练方向;判别
器和生成器交替训练直至生成器网络至最佳。
间差逐像素之差的平方和,分别代表生成预测视频与真实视频图形上的相似程度以及动作
上的相似程度。
个时间段预测视频与真实视频生成的误差动态生成异常检出的阈值,对预测视频的误差超
过阈值的判断为视频中发生的异常事件。
出现。
附图说明
具体实施方式
取观测视频的动作特征以及图形特征,而解码器则用于根据编码器输出的动作特征以及图
形特征生成预测视频。判别器则用于为生成的预测视频或真实视频评分。而异常检出的方
法则采用拉依达准则法,统计预测视频的生成误差,对生成误差超过均值三倍标准差的视
频片段判为异常。
×2×2的最大值池化层组成,之后的两层均由卷积核大小为1×3×3、步长均为1×1×1的
卷积层、非线性激活层以及大小为1×2×2、步长为1×2×2的最大值池化层串联形成。这三
层中的卷积层使用的卷积核个数分别为64,128和256。其中使用的非线性激活函数为
LeakyReLU,LeakyReLU的计算公式如下:
串联形成,各卷积层使用的卷积核个数分别为64,128和256。其中使用的非线性激活函数为
LeakyReLU。模块输出的图形特征图与动作特征图在长、宽和通道数的维度上保持大小一
致。
络得到一个维度为长、宽和通道数的动作预测特征图。之后按通道数维度拼接动作预测特
征图和步骤(2)的图形特征图,将拼接后的特征图输入到两层卷积核大小均为1×3×3、步
长均为1×2×2的三维反卷积层,最后通过一层卷积核大小为4×3×3、步长为4×2×2的三
维反卷积层和一个非线性激活层后,输出为图像大小与原视频相匹配的预测视频的其中四
帧。该生成的四帧将重新作为输入的观测视频按步骤(2)和步骤(3)所述方式处理后再次输
出新的四帧预测视频片段,直至所有生成预测视频片段的时间长度之和满足要求后按时间
先后拼接所有生成的片段得到完整的预测视频。
大值池化层串联的结构,在第一、二层时并没有减少时间维度的大小。之后三至五层的三维
卷积模块中设置的运算顺序均为经过两次卷积串联非线性激活后再进行池化,具体设置如
下:卷积核大小为3×3×3、步长均为1×1×1的三维卷积层,之后是非线性激活层和大小为
2×2×2、步长为2×2×2的最大值池化层。在三至五层模块中进行池化操作时,均降低时间
维度的大小。
个,第四、五层模块的各组卷积核均使用了512个。在本实施例中,步骤(4)使用的非线性激
活函数为LeakyReLU。
围进行限制,因此判别器的输出范围为(‑∞,+∞)。
成视频在判别器中的分值与真实视频的分值尽量相近以及生成视频与真实视频的生成误
差尽量地小。训练过程中,判别器和生成器交替训练直至生成器网络至最佳。
测视频 预测视频在判别器D上得到的评分则为 而
起始帧为t+T+1、持续帧数为T的真实视频Xt+T+1~t+2T+1在D上得到的评分为D(Xt+T+1~t+2T+1),于
是判别器损失函数可以用以下公式表达:
频的帧位置对应的真实视频则为Xt+T+1~t+2T+1,生成器损失由两部分表达,其中一部分是由该
生成视频在判别器中的得分的负来表示,表示为:
素 与真实视频的像素p的逐帧逐像素的像素之差的平方和,表示为:
视频帧间差的每个像素 和真实视频帧间差的每个像素d求差的平方和,具体的动作误差
损失函数为:
根据同一场景下正常历史视频的生成误差Lcon和Lmov分别求得均值μcon和μmov以及标准差σmov
和σmov,根据对应的均值和标准差更新对应的阈值。对新输入的视频求得其生成误差,若图
像误差及动作误差均不超过阈值,则判断为正常视频并更新均值以及标准差;若图像误差
或动作误差超过阈值,则判断为异常。在本实施例中,阈值设定为均值加三倍的标准差。
均应为等效的置换方式,都包含在本发明的保护范围之内。