一种打架行为识别方法、系统及计算机可读存储介质转让专利

申请号 : CN202310758668.1

文献号 : CN116524414B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 区英杰刘均发谭焯康董万里

申请人 : 广州英码信息科技有限公司

摘要 :

本发明公开了一种打架行为识别方法、系统及计算机可读存储介质,所述方法包括以下步骤:判断监控视频每一帧图像是否存在人体近距离接触关系,并判断监控视频存在人体近距离交互行为;对存在人体近距离交互行为的网格点人体检测框区域进行扩大、融合,并截取每帧图像的人体行为交互图像区域,输入到视频分类模型,该模型输出分类结果和表示打架区域的类别激活热图;将类别激活热图转换成坐标表示,并通过坐标变换将打架行为坐标转换回原始的图像序列中,获得在原始图像中的定位结果。该发明能够更准确判断多个人体之间的接触关系,准确定位打架区域,保持较高精度且能应用于边缘计算设备端。

权利要求 :

1.一种打架行为识别方法,其特征在于,包括以下步骤:

S1、首先判断监控视频每一帧图像是否存在人体近距离接触关系,然后判断监控视频是否存在人体近距离接触次数 不小于第一预设阈值 的一个网格点 ,若存在,则该监控视频存在人体近距离交互行为;

S2、首先扩大网格点 及其邻近网格点对应的人体检测框,然后以最小外接矩形框的方式融合扩大后的人体检测框,得到网格点 的人体行为交互图像区域;如果监控视频中存在多个人体近距离交互行为的网格点,则在得到多个网格点的人体行为交互图像区域后,再以最小外接矩形框的方式融合多个网格点的人体行为交互图像区域,得到监控视频的人体行为交互图像区域;最后截取每帧图像的人体行为交互图像区域,输入到步骤S3;

S3、人体行为交互图像区域输入到视频分类模型中,输出分类结果和表示打架区域的类别激活热图;所述视频分类模型是在已经训练好的视频分类模型中增加类别激活热图输出分支,类别激活热图输出分支共享视频分类模型的类别输出分支的全连接层参数;

S4、将类别激活热图转换成坐标表示,并通过坐标变换将打架行为坐标转换回原始的图像序列中,获得在原始图像中的定位结果。

2.根据权利要求1所述打架行为识别方法,其特征在于,步骤S1中,所述判断监控视频每一帧图像是否存在人体近距离接触关系,具体通过以下方式进行:如果两个行人对应的行人检测框之间的归一化中心点距离小于第二预设阈值,或者两个行人对应的行人检测框之间的归一化中心点距离大于第二预设阈值,小于第三预设阈值,且两个行人对应的行人检测框之间的IOU大于零,则认为存在人体近距离接触关系。

3.根据权利要求1所述打架行为识别方法,其特征在于,步骤S1中,所述判断监控视频每一帧图像是否存在人体近距离接触关系,具体通过以下方式进行:(1)计算头部检测框 与行人检测框 的前景交并比IOF,得到匹配成本矩阵;其中前景交并比IOF的计算公式如下:;

式中, 表示人体检测框与头部检测框的重叠区域面积, 表示

头部检测框的面积;

(2)利用匈牙利匹配算法对匹配成本矩阵求最优解,得到行人检测框和头部检测框的从属关系;

(3)计算行人检测框之间的中心点像素距离 ,比较两个行人检测框匹配的头部检测框面积,用最小的头部检测框面积 归一化行人检测框之间的中心点像素距离,得到归一化后的中心点距离 ; 的计算公式如下:;

式中, 和 表示两个不同的行人检测目标, 、 分别表示与行人检测目标 、 匹配的头部检测目标, 表示求两个实数的最小值; 表示行人检测目标 的行人检测框中心点的横坐标; 表示行人检测目标 的行人检测框中心点的横坐标; 表示行人检测目标 的行人检测框中心点的纵坐标; 表示行人检测目标 的行人检测框中心点的纵坐标; 表示头部检测目标 的头部检测框的宽度; 表示头部检测目标 的头部检测框的高度; 表示头部检测目标 的头部检测框的宽度; 表示头部检测目标 的头部检测框的高度;

(4)计算行人检测框之间的面积交并比IOU,IOU的计算公式如下:;

式中, 表示行人检测目标 的行人检测框 和行人检测目标 的行人检测框 的重叠区域面积, 表示行人检测目标 的行人检测框和行人检测目标 的行人检测框 的合并区域面积;

(5)如果两个行人检测框之间的归一化中心点距离 小于第二预设阈值 ,则认为这两个行人之间存在近距离接触;如果检测框之间的归一化中心点距离 大于第二预设阈值 ,小于第三预设阈值 ,且行人检测框之间的IOU大于0,则认为这两个行人之间也存在近距离接触;其余情况则认为这两个行人之间不存在近距离接触。

4.根据权利要求1所述打架行为识别方法,其特征在于,判断监控视频是否存在人体近距离交互行为,具体如下:

1)首先将图像划分为大小相同的 个网格区域;

2)计算每帧图像中存在行人近距离接触的坐标位置,即计算存在近距离接触的两个行人检测框之间的中心点坐标 ;然后对中心点坐标 归一化取整,得到在 网格中的坐标 , 为取整符号;其中,

表示行人检测目标 的行人检测框中心点的横坐标; 表示行人检测目标 的行人检测框中心点的横坐标; 表示行人检测目标 的行人检测框中心点的纵坐标; 表示行人检测目标 的行人检测框中心点的纵坐标;

3)统计视频流中每帧图像中对应网格点出现人体近距离接触的次数 ; 表示第t帧图像中网格点横坐标和纵坐标分别为i和j的人体近距离接触次数;

4)循环遍历每帧图像中的非边界网格点,计算所述非边界网格点和以所述非边界网格点为中心的邻近 个网格点出现人体近距离接触的次数 ;

表示整个视频流中网格点 及其邻近区域的近距离接触次数; 的计算公式如下:;

式中, 是一个阶跃函数,当输入大于0输出为1,当输入等于0输出也为0; 是一个与该网格点的人体检测框面积大小成正比关系的整数;

5)如果视频中存在一个网格点的人体近距离接触次数 大于等于第一预设阈值 ,就认为该视频存在人体近距离交互行为,否则就认为不存在人体近距离交互行为。

5.根据权利要求1所述打架行为识别方法,其特征在于,所述视频分类模型,基于轻量的X3D视频分类模型,假设视频分类模型输入的是宽、高分别为W、H的T帧RGB视频帧,输入图像序列用 表示;视频分类模型首先经过多层卷积神经网络提取特征,得到时空特征 ,其中 为集合实数集, 表示特征的通道维数, 和 分别表示特征的宽、高维度;再通过一个时间和空间维度的全局池化层操作,得到全局特征 ,最后通过两个全连接层映射和 激活函数归一化处理,得到2个类别的分类结果 ,分别是打架和非打架行为的分数;X3D模型的分类输出分支计算过程表示如下:;

式中, 和 表示两个不同的全连接层, 表示时间和空间维度的池化层;

在卷积神经网络层后增加一个类别激活热图输出分支,该分支首先对卷积神经网络层提取的时空特征在时间维度上做全局池化处理,而在空间维度不做任何处理,输出空间特征 ;然后经过两个全连接层映射,得到打架类别对应通道的图像特征 ,全连接层的参数与分类输出分支相同,但最后一个全连接层只取打架类别对应的参数进行运算;接着对全连接层的输出特征进行上采样,得到与输入空间维度相同的图像特征,最后通过0‑1规范化处理得到打架类别对应的类别激活热图;

类别激活热图输出分支的计算过程表示如下:

式中, 表示时间维度的池化层, 表示只映射打架类别的全连接层,表示上采样层, 表示0‑1规范化层,在类别激活热图中,像素值最大的图像区域表示打架行为发生的位置。

6.根据权利要求1所述打架行为识别方法,其特征在于,还包括根据历史识别结果优化打架告警步骤:

1)创建一个历史得分队列Q,存储每次监控视频识别结果的打架类别分数;

2)如果历史得分队列Q的长度超过第四预设阈值L,则将最先入队的得分删除,再将最新的得分存入队列;

3)排序查找历史得分队列中分数最大的前K个数;

4)如果前K个数都大于第五预设阈值S,就认为发生了打架行为,进行报警提示,否则就认为未发生打架行为。

7.一种打架行为识别系统,其特征在于:用于实现权利要求1至6任一权利要求所述识别方法;包括人体近距离交互行为判断模块、视频帧识别区域确定模块、打架行为定位与识别模块、识别结果后处理模块;其中:人体近距离交互行为判断模块,判断监控视频每一帧图像是否存在人体近距离接触关系,并判断监控视频存在人体近距离交互行为;

视频帧识别区域确定模块,对存在人体近距离交互行为的网格点人体检测框区域进行扩大、融合,并截取每帧图像的人体行为交互图像区域,输入到打架行为定位与识别模块;

打架行为定位与识别模块,通过视频分类模型输出分类结果和表示打架区域的类别激活热图;

识别结果后处理模块,将类别激活热图转换成坐标表示,并通过坐标变换将打架行为坐标转换回原始的图像序列中,获得在原始图像中的定位结果。

8.一种服务器,其特征在于:所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现权利要求1至6任一权利要求所述打架行为识别方法。

9.一种计算机可读存储介质,其特征在于:所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现权利要求1至6任一权利要求所述打架行为识别方法。

说明书 :

一种打架行为识别方法、系统及计算机可读存储介质

技术领域

[0001] 本发明涉及行为识别领域,特别涉及一种打架行为识别方法、系统及计算机可读存储介质。

背景技术

[0002] 打架斗殴是一个严重的对他人身体造成伤害为目的的暴力倾向行为,威胁人民群众的生命财产安全,破坏社会稳定。因此,及时、有效地识别打架行为,是非常有必要的。
[0003] 目前打架识别常用的的技术是基于深度学习的方法,主要有人体动作检测(基于单帧图像),人体关键点(骨骼点)检测与识别和视频分类技术。人体检测技术基于单帧图像识别人体动作类别,忽略了人体时序动作特征信息,容易出现误识别和漏识别。人体关键点检测与识别技术基于检测的多帧人体关键点序列,采用人工定义手部和腿部的关键点运动特征或利用模型识别人体关键点序列,判断打架异常行为。但打架事件过程中打架人员常常纠缠在一起,造成人体关键点容易被遮挡和误检,影响后续的识别环节。视频分类技术输入一个连续的视频帧序列,能够同时利用空间和时序特征,具有较好的泛化能力。但如果对监控摄像头的视频流进行实时的视频分类,就需要较高的算力设备支持。
[0004] 例如:专利一“CN202010587707.2,一种异常行为识别方法及装置”:对待识别的视频帧进行人体检测与跟踪,如果视频帧中存在至少两个人体,就分别对人体区域图像进行人体关键点检测。当人体关键点被外部遮挡的数量少于一定阈值时,就判断人体区域图像之间的中心点距离跟第一距离阈值和第二距离阈值的关系。如果中心点距离小于等于第一距离阈值大于第二距离阈值,就输入视频帧或结合输入关键点进行单人动作识别;如果中心点距离同时小于第一距离阈值和第二距离阈值,则输入视频帧进行多人动作识别。统计连续视频帧被识别为异常行为的帧数,如果打架行为的帧数大于一定阈值就判断待识别的视频存在打架行为。该方案存在以下缺点:1)直接采用人体图像区域之间的中心点距离不能准确判断图像中两个人体是否存在接触,因为两个人体图像区域的中心点距离跟摄像头的拍摄距离和拍摄角度有关,人体图像区域之间的中心点距离不能完全反应现实中的距离远近关系。2)通过视频帧即一帧的图像信息识别动作类别准确率不高,其忽略了人体动作的运动信息。3)该异常行为的识别方法包括了人体检测模块、人体跟踪模块、人体关键点检测模块、单人行为识别模块和多人行为识别模块,除了跟踪模块外都需要进行模型训练优化,实现成本较高。
[0005] 例如:专利二“CN202211043986.1,打架行为识别方法、装置及电子设备”:先检测图像中的行人轮廓图,对获得的行人轮廓图像进行姿态识别,得到人体关键点坐标和姿态类别。利用跟踪模块和人体关键点图像坐标,计算手部和腿部关键点的最大位移速度、平均位移速度和移动方向。根据关键点的速度大小,位移方向与其它目标行人之间的指向关系,以及目标行人关键点与其它目标行人之间的重合区域关系确定是否出现打架动作;当跟踪的目标行人出现的打架次数大于预设动作阈值,姿态切换次数大于切换阈值,同时两个目标行人之间的距离小于预设阈值时,就发出打架告警。该方案存在以下缺点:1)根据在图像中的像素坐标计算人体关键点的运动特征和目标行人之间的距离不能真实反应现实中的运动特征和距离关系,影响后续的识别环节。因为其与专利技术一存在同样的问题,忽略了摄像头的拍摄距离和角度的影响。2)打架斗殴是一个肢体动作复杂的行为,事件的过程中人体的关键点容易被遮挡,通过手工定义的人体关键点的速度特征、行人之间的距离关系和姿态切换次数较难准确描述打架行为,容易出现误识别和漏识别的情况。
[0006] 例如:专利三“CN202111426217.5,一种基于动作识别的自动报警方法和系统”:采用视频分类动作识别模型识别监控视频是否存在打架斗殴行为,如果存在就提取打架斗殴图像用于上报告警;接着检测打架斗殴图像的人员头型,计算人员头型之间的像素距离,得到人员最密集的坐标点,确定为打架区域,利用摄像头上的强光手电照射打架区域。该方案存在以下缺点:1)该方法需要对摄像头获取的视频流进行实时地动作识别(视频分类),而视频分类模型输入的是连续的视频帧序列,同时提取时序和空间特征,推理一次模型需要较大的计算量,在边缘设备端较难达到实时的识别效果。2)采用人员头型的像素坐标计算人员头型的最密集区域作为打架区域,容易错误定位,因为人员头型在图像中的密集情况跟现场的人群密度和摄像头的拍摄角度有关。
[0007] 例如:专利四“CN201910755687.2,一种面向智慧社区的异常行为检测方法及系统”:逐帧检测监控摄像机所拍摄视频图像中的人体目标,当图像中存在两个及以上人体目标时,计算人体多个目标之间的马氏距离及IOU加权(关联度);当多个人体目标之间的关联度超过阈值时,融合扩大关联目标的bounding box,将图像输入到打架斗殴模型进行打架斗殴检测;如果连续10帧检测中超过8次判断为打架斗殴的结果就进行预警提示。该方案存在以下缺点:打架斗殴是一个连续的动作行为,包含空间和时序特征,根据单帧图像来检测打架斗殴行为,忽略了动作之间的时序信息,与专利技术一存在同样的不足。

发明内容

[0008] 本发明的目的在于克服现有技术的缺点与不足,提供一种打架行为识别方法,该方法能够更准确判断多个人体之间的接触关系,准确定位打架区域,保持较高精度且能应用于边缘计算设备端。
[0009] 本发明的另一目的在于提供一种打架行为识别系统。
[0010] 本发明的目的通过以下的技术方案实现:
[0011] 一种打架行为识别方法,包括以下步骤:
[0012] S1、首先判断监控视频每一帧图像是否存在人体近距离接触关系,然后判断监控视频是否存在人体近距离接触次数 不小于第一预设阈值 的一个网格点 ,若存在,则该监控视频存在人体近距离交互行为;
[0013] S2、首先扩大网格点 及其邻近网格点对应的人体检测框,然后以最小外接矩形框的方式融合扩大后的人体检测框,得到网格点 的人体行为交互图像区域;如果监控视频中存在多个人体近距离交互行为的网格点,则在得到多个网格点的人体行为交互图像区域后,再以最小外接矩形框的方式融合多个网格点的人体行为交互图像区域,得到监控视频的人体行为交互图像区域;最后截取每帧图像的人体行为交互图像区域,输入到步骤S3;
[0014] S3、人体行为交互图像区域输入到视频分类模型中,输出分类结果和表示打架区域的类别激活热图;所述视频分类模型是在已经训练好的视频分类模型中增加类别激活热图输出分支,类别激活热图输出分支共享视频分类模型的类别输出分支的全连接层参数;
[0015] S4、将类别激活热图转换成坐标表示,并通过坐标变换将打架行为坐标转换回原始的图像序列中,获得在原始图像中的定位结果。
[0016] 步骤S1中,所述判断监控视频每一帧图像是否存在人体近距离接触关系,具体通过以下方式进行:如果两个行人对应的行人检测框之间的归一化中心点距离小于第二预设阈值,或者两个行人对应的行人检测框之间的归一化中心点距离大于第二预设阈值,小于第三预设阈值,且两个行人对应的行人检测框之间的IOU大于零,则认为存在人体近距离接触关系。
[0017] 步骤S1中,所述判断监控视频每一帧图像是否存在人体近距离接触关系,具体通过以下方式进行:
[0018] (1)计算头部检测框 与行人检测框 的前景交并比IOF,得到匹配成本矩阵;其中前景交并比IOF的计算公式如下:
[0019] ;
[0020] 式中, 表示人体检测框与头部检测框的重叠区域面积,表示头部检测框的面积;
[0021] (2)利用匈牙利匹配算法对匹配成本矩阵求最优解,得到行人检测框和头部检测框的从属关系;
[0022] (3)计算行人检测框之间的中心点像素距离 ,比较两个行人检测框匹配的头部检测框面积,用最小的头部检测框面积 归一化行人检测框之间的中心点像素距离,得到归一化后的中心点距离 ; 的计算公式如下:
[0023] ;
[0024] 式中, 和 表示两个不同的行人检测目标, 、 分别表示与行人检测目标 、匹配的头部检测目标, 表示求两个实数的最小值; 表示行人检测目标 的行人检测框中心点的横坐标; 表示行人检测目标 的行人检测框中心点的横坐标;表示行人检测目标 的行人检测框中心点的纵坐标; 表示行人检测目标 的行人检测框中心点的纵坐标; 表示头部检测目标 的头部检测框的宽度; 表示头部检测目标 的头部检测框的高度; 表示头部检测目标 的头部检测框的宽度;
表示头部检测目标 的头部检测框的高度;
[0025] (4)计算行人检测框之间的面积交并比IOU,IOU的计算公式如下:
[0026] ;
[0027] 式中, 表示行人检测目标 的行人检测框 和行人检测目标的行人检测框 的重叠区域面积, 表示行人检测目标 的行人检
测框 和行人检测目标 的行人检测框 的合并区域面积;
[0028] (5)如果两个行人检测框之间的归一化中心点距离 小于第二预设阈值 ,则认为这两个行人之间存在近距离接触;如果检测框之间的归一化中心点距离 大于第二预设阈值 ,小于第三预设阈值 ,且行人检测框之间的IOU大于0,则认为这两个行人之间也存在近距离接触;其余情况则认为这两个行人之间不存在近距离接触。
[0029] 判断监控视频是否存在人体近距离交互行为,具体如下:
[0030] 1)首先将图像划分为大小相同的 个网格区域;
[0031] 2)计算每帧图像中存在行人近距离接触的坐标位置,即计算存在近距离接触的两个行人检测框之间的中心点坐标 ;然后对中心点 坐标归一化取整,得到在 网格中的坐标 ,
为取整符号;其中, 表示行人检测目标 的行人检测框中心点的横坐标; 表示行人检测目标 的行人检测框中心点的横坐标; 表示行人检测目标 的行人检测框中心点的纵坐标; 表示行人检测目标 的行人检测框中心点的纵坐标;
[0032] 3)统计视频流中每帧图像中对应网格点出现人体近距离接触的次数 ; 表示第t帧图像中网格点横坐标和纵坐标分别为i和j的人体近距离接触次数;
[0033] 4)循环遍历每帧图像中的非边界网格点,计算所述非边界网格点和以所述非边界网格点为中心的邻近 个网格点出现人体近距离接触的次数; 表示整个视频流中网格点 及其邻近区域的近距离接触次数; 的计
算公式如下:
[0034] ;
[0035] ;
[0036] 式中, 是一个阶跃函数,当输入大于0输出为1,当输入等于0输出也为0; 是一个与该网格点的人体检测框面积大小成正比关系的整数;
[0037] 5)如果视频中存在一个网格点的人体近距离接触次数 大于等于第一预设阈值 ,就认为该视频存在人体近距离交互行为,否则就认为不存在人体近距离交互行为。
[0038] 所述视频分类模型,基于轻量的X3D视频分类模型,假设视频分类模型输入的是宽、高分别为W、H的T帧RGB视频帧,输入图像序列用 表示;视频分类模型首先经过多层卷积神经网络提取特征,得到时空特征 ,其中
为集合实数集,表示特征的通道维数, 和 分别表示特征的宽、高维度;再通过一个时间和空间维度的全局池化层操作,得到全局特征 ,最后通过两个全
连接层映射和 激活函数归一化处理,得到2个类别的分类结果 ,分
别是打架和非打架行为的分数;X3D模型的分类输出分支计算过程表示如下:
[0039] ;
[0040] 式中, 和 表示两个不同的全连接层, 表示时间和空间维度的池化层;
[0041] 在卷积神经网络层后增加一个类别激活热图输出分支,该分支首先对卷积神经网络层提取的时空特征在时间维度上做全局池化处理,而在空间维度不做任何处理,输出空间特征 ;然后经过两个全连接层映射,得到打架类别对应通道的图像特征 ,全连接层的参数与分类输出分支相同,但最后一个全连接层
只取打架类别对应的参数进行运算;接着对全连接层的输出特征进行上采样,得到与输入空间维度相同的图像特征,最后通过0‑1规范化处理得到打架类别对应的类别激活热图;
[0042] 类别激活热图输出分支的计算过程表示如下:
[0043]
[0044] ;
[0045] 式中, 表示时间维度的池化层, 表示只映射打架类别的全连接层,表示上采样层, 表示0‑1规范化层,在类别激活热图中,像素值最大的图像区域表示打架行为发生的位置。
[0046] 所述打架行为识别方法,还包括根据历史识别结果优化打架告警步骤:
[0047] 1)创建一个历史得分队列Q,存储每次监控视频识别结果的打架类别分数;
[0048] 2)如果历史得分队列Q的长度超过第四预设阈值L,则将最先入队的得分删除,再将最新的得分存入队列;
[0049] 3)排序查找历史得分队列中分数最大的前K个数;
[0050] 4)如果前K个数都大于第五预设阈值S,就认为发生了打架行为,进行报警提示,否则就认为未发生打架行为。
[0051] 本发明的另一目的通过以下的技术方案实现:
[0052] 一种打架行为识别系统,包括人体近距离交互行为判断模块、视频帧识别区域确定模块、打架行为定位与识别模块、识别结果后处理模块;其中:
[0053] 人体近距离交互行为判断模块,判断监控视频每一帧图像是否存在人体近距离接触关系,并判断监控视频存在人体近距离交互行为;
[0054] 视频帧识别区域确定模块,对存在人体近距离交互行为的网格点人体检测框区域进行扩大、融合,并截取每帧图像的人体行为交互图像区域,输入到打架行为定位与识别模块;
[0055] 打架行为定位与识别模块,通过视频分类模型输出分类结果和表示打架区域的类别激活热图;
[0056] 识别结果后处理模块,将类别激活热图转换成坐标表示,并通过坐标变换将打架行为坐标转换回原始的图像序列中,获得在原始图像中的定位结果。
[0057] 同时,本发明提供:
[0058] 一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现上述打架行为识别方法。
[0059] 一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现上述打架行为识别方法。
[0060] 本发明与现有技术相比,具有如下优点和有益效果:
[0061] 1、本发明的人体近距离交互行为的判断,是采用归一化的人体检测框之间的中心点像素距离和IOU判断近距离接触关系,基于网格点划分方式统计人体近距离接触次数,判断待识别视频是否用于后续的行为识别与定位。现有技术采用的方案是直接通过人体检测框之间的中心点像素距离或结合IOU的加权值判断是否识别当前帧。
[0062] 本发明采用的是归一化的像素距离和IOU判断近距离接触关系,能更准确描述人体之间在三维空间中的距离关系。其次,本发明是综合多帧的人体近距离接触关系判断是否进行后续的打架行为识别,而不仅仅根据一帧的人体近距离接触关系判断,能更高效过滤无明显打架行为的视频信息,减轻边缘设备端的计算压力。
[0063] 2、本发明的打架行为的定位与识别,是在已训练好的视频分类模型中增加类别激活热图输出分支,能够同时实现打架行为的定位与识别。现有技术方案先采用视频分类方法,识别到存在打架行为后,再检测图像中的头型,计算头型之间的密集程度,以最密集区域为打架区域。
[0064] 本发明提出的视频识别与定位方法能够同时输出打架行为类别分数和空间位置信息,只需在已训练好的模型中增加类别激活热图分支,无需重新训练模型,增加的计算量少,更能准确定位打架行为的空间位置。
[0065] 3、与现有的技术相比,本发明能更准确、高效的过滤无明显打架行为的视频。更准确是因为判断人体近距离接触关系利用了归一化的中心点像素值和IOU,更高效是因为综合了多帧的人体近距离接触关系判断待识别视频是否进行后续的打架识别,而不是一帧一帧的判断。
[0066] 4、本发明的识别方法具有高准确率、低计算量的优点,更适合部署于边缘计算设备中。高准确率是因为采用了视频分类与类别激活热图定位的方法,低计算量是因为在进行打架行为定位与识别之前,先用低计算量的方法过滤了大部分无明显打架行为的视频。

附图说明

[0067] 图1为打架行为识别方法的流程图。
[0068] 图2为具有近距离交互关系的人体检测框融合示意图。
[0069] 图3为包含类别输出分支和类别激活热图输出分支的X3D模型的结构示意图。

具体实施方式

[0070] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0071] 针对上述方法中存在多个人体之间接触关系判断方法精度不高,单帧图像检测打架行为忽略时序信息造成准确率不高,视频分类较难在边缘计算设备端达到实时效果,以及打架区域定位不准确的问题。如图1所示,提出一种打架行为识别方法,主要包括人体近距离交互行为判断、视频帧识别区域确定、打架行为定位与识别和识别结果后处理这4个步骤。
[0072] 1、人体近距离交互行为判断
[0073] 打架事件的发生是随机不可预判的,随机性体现在发生的时间和地点是不固定的。为了能够及时处理打架事件,就需要实时的对监控画面进行识别。发生打架行为又是一个低概率的事件,跟当前监控场景的人群密度和行人之间是否存在交互行为有关。本模块的功能是判断视频监控画面中是否存在人体近距离交互行为,过滤无明显打架行为的视频流,减轻设备的算力压力。其实现流程如下:
[0074] 输入监控图像序列,通过轻量的人体检测算法YOLOv5获得每帧图像中行人和头部的坐标,行人的坐标用包围整个人体的水平矩形框 表示,即行人检测框;头部的坐标用包围整个人体头部的水平矩形框 表示,即头部检测
框; 是水平矩形框的中心点坐标, 是水平矩形框的宽和高,检测目标的水平矩形框又称为检测框。
[0075] 统计每帧图像中行人检测框的数量。如果图像中行人检测框的数量小于2,就认为该帧图像不存在人体之间近距离接触。如果图像中行人检测框的数量大于等于2,则进一步判断该帧图像是否存在行人之间近距离接触。其判断具体过程如下:
[0076] 1)计算头部检测框与行人检测框的前景交并比(Intersection  Over Foreground, IOF),得到匹配成本矩阵。IOF的计算公式如下:
[0077] ;
[0078] 式中, 表示人体检测框与头部检测框的重叠区域面积,表示头部检测框的面积。
[0079] 2)利用匈牙利匹配算法对匹配成本矩阵求最优解,得到行人和头部检测框的从属关系。
[0080] 3)计算行人检测框之间的中心点像素距离 ,比较两个行人检测框匹配的头部检测框面积,用最小的头部检测框面积 归一化行人检测框之间的中心点像素距离,得到归一化后的中心点距离 。 的计算公式如下:
[0081] ;
[0082] 式中, 和 表示两个不同的行人检测目标, 、 表示与行人检测目标匹配的头部检测目标, 表示求两个实数的最小值。
[0083] 4)计算行人检测框之间的面积交并比(Intersection Over Union, IOU),IOU的计算公式如下:
[0084] ;
[0085] 式中, 表示行人检测目标 的行人检测框 和行人检测目标的行人检测框 的重叠区域面积, 表示行人检测目标 的行人检
测框 和行人检测目标 的行人检测框 的合并区域面积;
[0086] 5)如果两个行人检测框之间的归一化中心点距离 小于第二预设阈值 ,则认为这两个行人之间存在近距离接触;如果检测框之间的归一化中心点距离 大于第二预设阈值 ,小于第三预设阈值 ,且行人检测框之间的IOU大于0,则认为这两个行人之间也存在近距离接触;其余情况则认为这两个行人之间不存在近距离接触。
[0087] 相对于行人检测框之间的中心点像素距离,采用头部检测框面积归一化的中心点像素距离更能准确表示三维空间中人体之间的距离关系。因为行人之间在图像中的像素距离跟拍摄距离和拍摄角度有关,头部检测框的面积大小与人体离摄像头的远近呈正相关,且相同拍摄距离下人体不同姿态的头部检测框面积变化小。
[0088] 针对一个T帧的视频,得到每帧图像的人体近距离接触关系后,则进一步综合判断该视频是否存在人体近距离交互行为。其判断细节如下:
[0089] 1)首先将图像划分为大小相同的 个网格区域。
[0090] 2)计算每帧图像中存在行人近距离接触的坐标位置,即计算存在近距离接触的两个行人检测框之间的中心点坐标 。然后对中心点 坐标归一化取整,得到在 网格中的坐标 ,
为取整符号。
[0091] 3)统计视频流中每帧图像中对应网格点出现人体近距离接触的次数 。 表示第t帧图像中网格点横坐标和纵坐标分别为i和j的人体近距离接触次数。
[0092] 4)循环遍历每帧图像中的非边界网格点,计算所述非边界网格点和以所述非边界网格点为中心的邻近 个网格点出现人体近距离接触的次数。 表示整个视频流中网格点 及其邻近区域的近距离接触次数。 的计
算公式如下:
[0093] ;
[0094] ;
[0095] 式中, 是一个阶跃函数,当输入大于0输出为1,当输入等于0输出也为0。 是一个与该网格点的人体检测框面积大小成正比关系的整数。
[0096] 5)如果视频中存在一个网格点的人体近距离接触次数 大于等于第一预设阈值 ,就认为该视频存在人体近距离交互行为,否则就认为不存在人体近距离交互行为。
[0097] 本发明采用网格划分图像区域,统计视频中每个网格点及其邻近网格点的人体之间近距离接触次数,类似于采用跟踪算法统计人体检测框之间的近距离接触次数。相对于跟踪算法,网格划分的方式在跟踪目标被遮挡的情况下影响较小。
[0098] 2、视频帧识别区域确定
[0099] 本模块对存在近距离交互行为的监控视频帧序列确定有效的识别区域,为后续打架行为定位与识别模块减少背景的干扰和放大人体近距离交互行为的识别区域。
[0100] 假设一个T帧的视频中,网格点 存在人体近距离交互行为,首先扩大该网格点及其邻近区域 个网格点具有近距离接触关系的人体检测框。扩大后的人体检测框坐标表示为
, 和 分别为人体检测框宽和高的扩大系数,扩大
后的人体检测框不超过图像的边界。然后以最小外接矩形框的方式融合扩大后的T帧人体检测框,得到该网格点的人体行为交互图像区域。如果视频中存在多个人体近距离交互行为的网格点,则在得到多个网格点的人体行为交互图像区域后,同样以最小外接矩形框的方式融合多个网格点的人体行为交互图像区域,得到T帧视频的人体行为交互图像区域,如图2所示。最后截取每帧图像的人体行为交互图像区域,得到打架行为定位与识别模块的T帧图像输入序列。
[0101] 3、打架行为定位与识别
[0102] 本模块对输入的T帧图像序列进行打架行为的定位与识别。基于视频的打架行为识别的常用方法是视频分类,但视频分类只能输出行为类别分数,不能定位打架行为发生的空间位置信息。时空行为定位与识别方法既能输出行为的空间位置和类别分数,也能输出行为的开始和结束时间点。但这种方法实现难度高,识别速度慢,不适合部署在边缘设备中。为了实现既能输出打架行为类别和空间位置信息,又能利用成熟的视频分类方法,本发明提出增加类别激活热图输出的视频分类方法。
[0103] 本发明基于轻量的X3D视频分类模型为例,将其改进为输出行为类别和类别激活热图的方法,如图3所示。假设X3D输入的是宽高为W和H的T帧RGB视频帧,输入图像序列用表示。模型首先经过多层卷积神经网络提取图像特征,得到时空特征 ,再通过一个时间和空间维度的全局池化层操作,得到全局特
征 ,最后通过两个全连接层映射和 激活函数归一化处理,
得到2个类别的分类结果 ,分别是打架和非打架行为的分数。X3D模型的分类输出分支计算过程表示如下:
[0104] ;
[0105] 式中, 和 表示两个不同的全连接层, 表示时间和空间维度的池化层。
[0106] 本发明提出的改进点是在卷积神经网络层后增加一个类别激活热图输出分支,该分支首先对卷积神经网络层提取的时空特征在时间维度上做全局池化处理,而在空间维度不做任何处理,输出空间特征 ;然后经过两个全连接层映射,得到打架类别对应通道的图像特征 ,全连接层的参数与分类输出分支相
同,但最后一个全连接层只取打架类别对应的参数进行运算。接着对全连接层的输出特征进行上采样,得到与输入空间维度相同的图像特征,最后通过0‑1规范化处理得到打架类别对应的类别激活热图 。类别激活热图输出分支的计算过程表示如下:
[0107]
[0108] ;
[0109] 式中, 表示时间维度的池化层, 表示只映射打架类别的全连接层,表示上采样层, 表示0‑1规范化层,在类别激活热图中,像素值最大的图像区域表示打架行为发生的位置。
[0110] 本发明的方法是在已经训练好的视频分类模型中增加类别激活热图输出分支,该分支共享视频分类模型的类别输出分支的全连接层参数,因此无需重新训练模型。其次,相对于卷积神经网络层,全连接层的计算量较小,增加类别激活热图分支不会引入太多的计算量。
[0111] 4、识别结果后处理
[0112] 上一步骤中获得的打架类别激活热图是一个概率图,为了方便信息传输和可视化显示打架行为位置,需要将类别激活热图转换成坐标表示。首先对获得的类别激活热图进行二值化处理和形态学操作得到二值化图像,然后对二值化图像进行连通域分析,得到用最小外接水平矩形框表示的打架行为位置信息。最后,通过坐标变换将打架行为坐标转换回原始的图像序列中,获得在原始图像中的定位结果。
[0113] 打架行为定位与识别模型难免会出现误识别的情况,为了尽可能减少误报,提出一种根据历史识别结果优化打架告警的方法。其实现流程如下:
[0114] 1)创建一个历史得分队列Q,存储每次监控视频识别结果的打架类别分数;
[0115] 2)如果历史得分队列Q的长度超过第四预设阈值L,则将最先入队的得分删除,再将最新的得分存入队列;
[0116] 3)排序查找历史得分队列中分数最大的前K个数;
[0117] 4)如果前K个数都大于第五预设阈值S,就认为发生了打架行为,进行报警提示,否则就认为未发生打架行为。
[0118] 一种打架行为识别系统,包括人体近距离交互行为判断模块、视频帧识别区域确定模块、打架行为定位与识别模块、识别结果后处理模块;其中:
[0119] 人体近距离交互行为判断模块,判断监控视频每一帧图像是否存在人体近距离接触关系,并判断监控视频存在人体近距离交互行为;
[0120] 视频帧识别区域确定模块,对存在人体近距离交互行为的网格点进行扩大,并截取每帧图像的人体行为交互图像区域,输入到打架行为定位与识别模块;
[0121] 打架行为定位与识别模块,通过视频分类模型输出类别激活热图;
[0122] 识别结果后处理模块,将类别激活热图转换成坐标表示,并通过坐标变换将打架行为坐标转换回原始的图像序列中,获得在原始图像中的定位结果。
[0123] 同时,本发明提供:
[0124] 一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现上述打架行为识别方法。
[0125] 一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现上述打架行为识别方法。
[0126] 说明书背景技术所列的专利一结合了人体动作检测和人体关键点(骨骼点)技术;专利二属于人体关键点(骨骼点)检测与识别技术;专利三属于视频分类技术;专利四属于人体动作检测(基于单帧图像)技术。
[0127] 本发明的技术方案可以归类为视频分类技术,但功能上又有一些区别,因为多了打架动作定位。
[0128] 本专利没有涉及到人体动作检测(基于单帧图像)和关键点检测与识别,但用到了人体检测技术。
[0129] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。